マイニング探検会第2回 #mitan

#mitan で検索しました。 誰でも編集可能ですので、ぜひ再現率を高めてください。 【つぶやけ!CiNii】 https://mbc.dl.itc.u-tokyo.ac.jp/tsubuyake_CiNii/ 続きを読む
0
前へ 1 2 3 ・・ 7 次へ
myrmecoleon @myrmecoleon

#mitan TF・IDF= {あるキーワードの出現頻度}×log({文書の総数}/{そのキーワードの出現する文書の数}) ふむふむ。

2010-05-14 19:53:58
myrmecoleon @myrmecoleon

#mitan 転置インデックス: 文書→キーワード1,キーワード2,キーワード3 のデータを引っくり返して キーワード→文書1,文書2,文書3 のインデックスを先に作っておく →高速で文書検索

2010-05-14 19:55:35
岡本真 原則 #saveMLAK & @LRGjp PRのみに使用 @arg

n-gramモデルと形態素解析モデルの違いについて。 #mitan

2010-05-14 19:57:33
myrmecoleon @myrmecoleon

#mitan n-gramモデルと形態素解析モデル。日本語のような分かち書きのない文書からキーワードのインデックスを作るための仕組み。n-gram: n文字ずつに全部ばらしてキーワードとする。ばいぐらむ,とらいぐらむ。 ⇔ 形態素解析:ちゃんと解析して単語をキーワードとする。

2010-05-14 19:58:10
Takanori Hayashi @tzhaya

きちんとした講義をオンラインで聴けるのはありがたいことです。現場にいる方がうらやましいです。 (#mitan live at http://ustre.am/fDHD )

2010-05-14 19:59:38
@dietrich_avatar

この辺、15コマでやることだよなぁ #mitan

2010-05-14 20:01:38
myrmecoleon @myrmecoleon

#mitan 形態素解析の技術。自然語文を形態素(意味のある最小単位)に分割。単語の境界判別が大きな問題。日本語用形態素解析ツールの紹介→ JUMAN, ChaSen, MeCab, Yahoo!日本語形態素解析

2010-05-14 20:01:40
myrmecoleon @myrmecoleon

#mitan n-gramと形態素解析の長所短所 辞書要らずで検索漏れが少ないがノイズ・インデックス大のn-gramとちょうど逆の形態素解析。

2010-05-14 20:03:10
@rieron

予め、スライドをアップしてくださってるので非常に心強く理解しやすいです。うれしい (#mitan live at http://ustre.am/fDHD )

2010-05-14 20:03:25
myrmecoleon @myrmecoleon

#mitan @dietrich_avatar さんがつぶやいてたきがするが 内容は学部の教養とかのレベルなんだけど普通半年かけてやることを10分そこらでやってる気がするwww ついてけてるのだろうか。

2010-05-14 20:04:23
@rieron

これこれ、集合やってないとぜ~んぜん理解できないらしいよ (#mitan live at http://ustre.am/fDHD )

2010-05-14 20:06:18
myrmecoleon @myrmecoleon

#mitan 再現率と適合率の話。 再現率=ヒットした適合文書/全適合文書 適合率=ヒットした適合文書/ヒットした文書全体 トレードオフの関係。測定にはテストコレクションが必要。日本語だとNTCIR・BMIRなど。利用目的にあったコレクションを使う必要がある。

2010-05-14 20:07:10
@dietrich_avatar

テストコレクションを作るのはとてもとても大変です。正解文書をさだめるのが #mitan

2010-05-14 20:08:12
myrmecoleon @myrmecoleon

#mitan Web検索では再現率の測定は極めて困難。(うんうん。昔ニコ動のタグの再現率とかなんとかやって怒られたのを思い出す。

2010-05-14 20:08:25
myrmecoleon @myrmecoleon

#mitan 主な検索ソフトウェアの紹介。Namazu HyperEstraier Lucene SoIr Senna GETA/GETAssoc

2010-05-14 20:09:56
Kosuke Tanabe @nabeta

@dietrich_avatar @myrmecoleon 数年前にぼくが取っていた某図書館なんたら学科の授業は、このへんを言葉だけ(数式なし)で説明していたので、逆に何をやっているのかさっぱりわかりませんでした

2010-05-14 20:12:20
前へ 1 2 3 ・・ 7 次へ