マイニング探検会第2回 #mitan
#mitan TF・IDF= {あるキーワードの出現頻度}×log({文書の総数}/{そのキーワードの出現する文書の数}) ふむふむ。
2010-05-14 19:53:58#mitan 転置インデックス: 文書→キーワード1,キーワード2,キーワード3 のデータを引っくり返して キーワード→文書1,文書2,文書3 のインデックスを先に作っておく →高速で文書検索
2010-05-14 19:55:35#mitan n-gramモデルと形態素解析モデル。日本語のような分かち書きのない文書からキーワードのインデックスを作るための仕組み。n-gram: n文字ずつに全部ばらしてキーワードとする。ばいぐらむ,とらいぐらむ。 ⇔ 形態素解析:ちゃんと解析して単語をキーワードとする。
2010-05-14 19:58:10きちんとした講義をオンラインで聴けるのはありがたいことです。現場にいる方がうらやましいです。 (#mitan live at http://ustre.am/fDHD )
2010-05-14 19:59:38形態素解析JUMAN http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman.html #mitan
2010-05-14 19:59:40Chasen http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman.html #mitan
2010-05-14 20:00:09Mecab http://mecab.sourceforge.net/ #mitan
2010-05-14 20:00:49#mitan 形態素解析の技術。自然語文を形態素(意味のある最小単位)に分割。単語の境界判別が大きな問題。日本語用形態素解析ツールの紹介→ JUMAN, ChaSen, MeCab, Yahoo!日本語形態素解析
2010-05-14 20:01:40Yahoo!検索API日本語形態素解析 http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html #mitan
2010-05-14 20:01:46#mitan n-gramと形態素解析の長所短所 辞書要らずで検索漏れが少ないがノイズ・インデックス大のn-gramとちょうど逆の形態素解析。
2010-05-14 20:03:10予め、スライドをアップしてくださってるので非常に心強く理解しやすいです。うれしい (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:03:25#mitan @dietrich_avatar さんがつぶやいてたきがするが 内容は学部の教養とかのレベルなんだけど普通半年かけてやることを10分そこらでやってる気がするwww ついてけてるのだろうか。
2010-05-14 20:04:23#mitan 再現率と適合率の話。 再現率=ヒットした適合文書/全適合文書 適合率=ヒットした適合文書/ヒットした文書全体 トレードオフの関係。測定にはテストコレクションが必要。日本語だとNTCIR・BMIRなど。利用目的にあったコレクションを使う必要がある。
2010-05-14 20:07:10#mitan Web検索では再現率の測定は極めて困難。(うんうん。昔ニコ動のタグの再現率とかなんとかやって怒られたのを思い出す。
2010-05-14 20:08:25#mitan 主な検索ソフトウェアの紹介。Namazu HyperEstraier Lucene SoIr Senna GETA/GETAssoc
2010-05-14 20:09:56Ref. Namazu http://www.namazu.org/index.html.ja #mitan
2010-05-14 20:10:54Ref. HyperEstraier http://hyperestraier.sourceforge.net/index.ja.html #mitan
2010-05-14 20:11:13Ref. Lucene (Apache Project) http://lucene.apache.org/ #mitan
2010-05-14 20:11:22Ref. Solr (Apache Project) http://lucene.apache.org/solr/ #mitan
2010-05-14 20:11:32Ref. Senna (未来検索ブラジル) http://razil.jp/product/senna/ #mitan
2010-05-14 20:11:40@dietrich_avatar @myrmecoleon 数年前にぼくが取っていた某図書館なんたら学科の授業は、このへんを言葉だけ(数式なし)で説明していたので、逆に何をやっているのかさっぱりわかりませんでした
2010-05-14 20:12:20