「地域語間関係をあらわす有向グラフを構築しておき、シグナルを伝搬させる」ふむふむ、オントロジー的なイメージ。 #DSIRNLP
2014-01-11 15:14:11以前 30min の方からも地域推定の話を伺ったことがあるなあ。あれはターゲットがブログで、ルールメンテナンスの作業率が高い印象があったけど、ニュースがターゲットだともう少し楽だったりするんだろうか #dsirnlp
2014-01-11 15:17:09ニュースからの地名情報抜き出しのはなし。マイナーな地名にヒットしちゃう人名や製品名に悩まされそう(悩まされた) #DSIRNLP
2014-01-11 15:28:39ニュースからの地名情報に限らず様々なタグ付けについてはTwitterではMechanical Turkで人力でやらせてるらしいっすね(どこかで読んだ) #DSIRNLP
2014-01-11 15:30:46今知った。行きたかった。 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 - 参加者は何か発表してネ スペシャル - [PARTAKE] http://t.co/AoKRJYjDyq via @partakein
2014-01-11 15:31:20#DSIRNLP 7つ目は @iwiwi さんによる Cache-Oblivious データ構造入門。MySQL など多くのデータベースは B-Tree を使っているが、二分探索木がダメなのはなぜ? メモリとディスクをうまく組み合わせて性能を出すため。説明いつもうまいな〜
2014-01-11 15:35:26iwiwi「データベースではよくB-treeがよく使われているが、なぜ二分木ではないのか。僕は小さい頃は疑問でした」 (これ多分iwiwi先生2歳頃の話や…) #DSIRNLP
2014-01-11 15:34:53#DSIRNLP 前提1ディスクアクセス時間 >> 計算時間、前提2ディスクは一度に読み込むのはそこそこ速い。一度に読み込むサイズを B とすると、B-Tree は二分探索木より log_B 倍速い。ディスクとメモリを使うなら、それを考慮したデータ構造を設計する必要がある。
2014-01-11 15:38:27#DSIRNLP B-Tree は読み込みサイズ B を値を使うことでディスクの読み込みの計算量を下げることができる。Cache-Oblivious データ構造は B を使ってはいけない、という設定。縛りプレイ。利点は、ポータブルかつ全てのメモリ階層でそこそこよく最適化できる。
2014-01-11 15:41:46大規模データを扱うアルゴリズムは、CPUが充分速い状況において一番遅いデバイス(メモリ-キャッシュ間かもしれないし、メモリ-ディスク間かもしれないし、ローカルのSSDキャッシュ-NAS間かもしれない)によって律速されるのでそこを最も効率化する方法から考えるのよね #DSIRNLP
2014-01-11 15:41:51再帰的に分割した時にサイズがB以下になった領域がディスク上の連続領域に格納されるため、その部分構造がB木の1ノードに対応しているように見ることができる #DSIRNLP
2014-01-11 15:46:08#DSIRNLP vEB レイアウトは二分探索木を上下に分割して再帰的にエンコード。ブロックサイズ B を知らなくてもディスクの読み込みを O(log_B n) にできる。なぜか? 再帰的に探索すると、読み込みサイズが B 以下になったら一度に読めるから。
2014-01-11 15:47:59CacheOblivious使ったTokuDB、以前も呟いたけど http://t.co/UwyutILNnQ の資料の47ページ目が圧倒的過ぎて笑えます。 #DSIRNLP
2014-01-11 15:48:54MySQL/MariaDB 向けストレージエンジンの TokuDB の Fractal Tree Indexing が Cache-Oblivious ではないか? という話。 #DSIRNLP
2014-01-11 15:50:16#DSIRNLP Cache-oblivious データ構造はよさげなのにあまり使われていないらしい。なぜか? 計算量では定数倍の部分が無視されるが、実際は定数倍のところが大きい。また、実装が大変。そして、現実的には Cache-aware データ構造に勝てないことが多い。
2014-01-11 15:51:14#DSIRNLP での発表スライド「Cache-Oblivious データ構造入門」をアップロードしました → http://t.co/5QCKQdkWPw B 木の利点の復習,CO の考え方,vEB レイアウト (CO の例),実際の事例紹介 (TokuDB) などです
2014-01-11 22:08:56小さい頃ってつい口から出てしまったけれど明らかに言い過ぎた…… https://t.co/VjNpF8T1el https://t.co/zJLe19Ughq #DSIRNLP
2014-01-11 16:04:59#DSIRNLP 8つ目は @fuzzysphere さんによる Bird Song Classification。Bioacoustics の問題。ICML 2013 WS、MLSP 2013、NIPS 2013 WS などで Kaggle を用いて共通タスクが開催された。
2014-01-11 16:08:17フェアリーデバイセズの方の音声処理の発表始まった。この間テレビで見てかなり面白い製品作ってたのでここで会えるとは… #DSIRNLP
2014-01-11 15:59:02鳥の声は著作権とか無いのでネタにしやすいらしい. #DSIRNLP Description - Multi-label Bird Species Classification - NIPS 2013 | Kaggle https://t.co/Sf4k2ZBEGx
2014-01-11 16:08:16