第5回 データ構造と情報検索と言語処理勉強会 #DSIRNLP

第5回 データ構造と情報検索と言語処理勉強会 #DSIRNLP のまとめです。追加・削除・編集などご自由に。
7
KOMIYA Atsushi @komiya_atsushi

「地域語間関係をあらわす有向グラフを構築しておき、シグナルを伝搬させる」ふむふむ、オントロジー的なイメージ。 #DSIRNLP

2014-01-11 15:14:11
Koji Matsuda @conditional

地名の曖昧性解消の話,おもしろい #DSIRNLP

2014-01-11 15:15:01
shuyo @shuyo

以前 30min の方からも地域推定の話を伺ったことがあるなあ。あれはターゲットがブログで、ルールメンテナンスの作業率が高い印象があったけど、ニュースがターゲットだともう少し楽だったりするんだろうか #dsirnlp

2014-01-11 15:17:09
Yuya Unno @unnonouno

ニュースからの地名情報抜き出しのはなし。マイナーな地名にヒットしちゃう人名や製品名に悩まされそう(悩まされた) #DSIRNLP

2014-01-11 15:28:39
くまぎ @kumagi

ニュースからの地名情報に限らず様々なタグ付けについてはTwitterではMechanical Turkで人力でやらせてるらしいっすね(どこかで読んだ) #DSIRNLP

2014-01-11 15:30:46
じょんすみす @__john_smith__

今知った。行きたかった。 新年会 + データ構造と情報検索と言語処理勉強会 #DSIRNLP 5 - 参加者は何か発表してネ スペシャル - [PARTAKE] http://t.co/AoKRJYjDyq via @partakein

2014-01-11 15:31:20
Mamoru B Komachi @mamoruk

#DSIRNLP 7つ目は @iwiwi さんによる Cache-Oblivious データ構造入門MySQL など多くのデータベースは B-Tree を使っているが、二分探索木がダメなのはなぜ? メモリとディスクをうまく組み合わせて性能を出すため。説明いつもうまいな〜

2014-01-11 15:35:26
散歩𝕏 @PENGUINANA_

「昔プログラミングコンテストをやっていまして、控えめに言ってもガチ勢です」 #DSIRNLP

2014-01-11 15:30:43
Takeshi Yamamuro @maropu

iwiwi君は小さい時からDBではなぜB木を使うのだろう、と思っていたらしい #DSIRNLP

2014-01-11 15:33:18
くまぎ @kumagi

iwiwi「データベースではよくB-treeがよく使われているが、なぜ二分木ではないのか。僕は小さい頃は疑問でした」 (これ多分iwiwi先生2歳頃の話や…) #DSIRNLP

2014-01-11 15:34:53
Mamoru B Komachi @mamoruk

#DSIRNLP 前提1ディスクアクセス時間 >> 計算時間、前提2ディスクは一度に読み込むのはそこそこ速い。一度に読み込むサイズを B とすると、B-Tree は二分探索木より log_B 倍速い。ディスクとメモリを使うなら、それを考慮したデータ構造を設計する必要がある。

2014-01-11 15:38:27
Mamoru B Komachi @mamoruk

#DSIRNLP B-Tree は読み込みサイズ B を値を使うことでディスクの読み込みの計算量を下げることができる。Cache-Oblivious データ構造は B を使ってはいけない、という設定。縛りプレイ。利点は、ポータブルかつ全てのメモリ階層でそこそこよく最適化できる。

2014-01-11 15:41:46
くまぎ @kumagi

大規模データを扱うアルゴリズムは、CPUが充分速い状況において一番遅いデバイス(メモリ-キャッシュ間かもしれないし、メモリ-ディスク間かもしれないし、ローカルのSSDキャッシュ-NAS間かもしれない)によって律速されるのでそこを最も効率化する方法から考えるのよね #DSIRNLP

2014-01-11 15:41:51
Yuya Unno @unnonouno

再帰的に分割した時にサイズがB以下になった領域がディスク上の連続領域に格納されるため、その部分構造がB木の1ノードに対応しているように見ることができる #DSIRNLP

2014-01-11 15:46:08
Mamoru B Komachi @mamoruk

#DSIRNLP vEB レイアウトは二分探索木を上下に分割して再帰的にエンコード。ブロックサイズ B を知らなくてもディスクの読み込みを O(log_B n) にできる。なぜか? 再帰的に探索すると、読み込みサイズが B 以下になったら一度に読めるから。

2014-01-11 15:47:59
Yuya Unno @unnonouno

異なる構成のコンピュータ間で、シリアライズされたDBデータをやりとりするような状況で使えるのかな? #DSIRNLP

2014-01-11 15:48:28
くまぎ @kumagi

CacheOblivious使ったTokuDB、以前も呟いたけど http://t.co/UwyutILNnQ の資料の47ページ目が圧倒的過ぎて笑えます。 #DSIRNLP

2014-01-11 15:48:54
KOMIYA Atsushi @komiya_atsushi

MySQL/MariaDB 向けストレージエンジンの TokuDB の Fractal Tree Indexing が Cache-Oblivious ではないか? という話。 #DSIRNLP

2014-01-11 15:50:16
Mamoru B Komachi @mamoruk

#DSIRNLP Cache-oblivious データ構造はよさげなのにあまり使われていないらしい。なぜか? 計算量では定数倍の部分が無視されるが、実際は定数倍のところが大きい。また、実装が大変。そして、現実的には Cache-aware データ構造に勝てないことが多い。

2014-01-11 15:51:14
Takuya Akiba @iwiwi

#DSIRNLP 発表だん~,ありがとうございました. スライド後でアップロードします.

2014-01-11 15:59:30
Takuya Akiba @iwiwi

#DSIRNLP での発表スライド「Cache-Oblivious データ構造入門」をアップロードしましたhttp://t.co/5QCKQdkWPw B 木の利点の復習,CO の考え方,vEB レイアウト (CO の例),実際の事例紹介 (TokuDB) などです

2014-01-11 22:08:56
Takuya Akiba @iwiwi

小さい頃ってつい口から出てしまったけれど明らかに言い過ぎた…… https://t.co/VjNpF8T1el https://t.co/zJLe19Ughq #DSIRNLP

2014-01-11 16:04:59
Mamoru B Komachi @mamoruk

#DSIRNLP 8つ目は @fuzzysphere さんによる Bird Song Classification。Bioacoustics の問題。ICML 2013 WS、MLSP 2013、NIPS 2013 WS などで Kaggle を用いて共通タスクが開催された。

2014-01-11 16:08:17
散歩𝕏 @PENGUINANA_

フェアリーデバイセズの方の音声処理の発表始まった。この間テレビで見てかなり面白い製品作ってたのでここで会えるとは… #DSIRNLP

2014-01-11 15:59:02
Koji Matsuda @conditional

鳥の声は著作権とか無いのでネタにしやすいらしい. #DSIRNLP Description - Multi-label Bird Species Classification - NIPS 2013 | Kaggle https://t.co/Sf4k2ZBEGx

2014-01-11 16:08:16