マイニング探検会第2回 #mitan
#mitan 検索システムのモデル。情報要求→検索質問→[ 内部表現→\マッチング!/←内部表現 ]←テキスト集合←情報集合 情報要求と情報集合を内部表現に変換してマッチングしてフィードバック。
2010-05-14 19:31:00#mitan 検索技術の歴史。1950年,キーワード抽出やKWICインデックス。1957年のスプートニクショックで米国,科学情報検索システムへの支援強化→1960年代に文献検索システム実用化。MEDLARS(1964年~。のちのMEDLINE)など。
2010-05-14 19:35:59NTCIR http://research.nii.ac.jp/ntcir/index-ja.html #mitan
2010-05-14 19:38:221970-80 全文検索システムの実用化と性能向上。SaltonらのSMARTシステム(ベクトル空間法・TFIDF・適合性フィードバック),テストコレクションによる客観的精度評価の試みなど。 1990年代,いくつかの評価型ワークショップが開催。 #mitan
2010-05-14 19:38:24#mitan 評価型ワークショップというのは新聞記事などのデータを提供して参加者がそれをもとに技術を開発する感じかな。TREC・MUC・NTCIR@NII を紹介
2010-05-14 19:39:42ちなみに第8回NTCIR ワークショップ成果報告会は、6月15-18日にNIIで開催 http://research.nii.ac.jp/ntcir/ntcir-ws8/meeting/index-ja.html #mitan
2010-05-14 19:39:56MUC-7 http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_toc.html #mitan
2010-05-14 19:40:291990年代後半。Webテキスト集合を検索対象として利用。ハイパーリンク構造によるランキングアルゴリズムなどが研究→HITSアルゴリズム,GoogleのPageRankなど 2000年代にこれらが活用されてWebサーチエンジンが飛躍的に発展。 #mitan
2010-05-14 19:41:25清田さんの資料は http://bit.ly/c4OhKx にあります。 #mitan
2010-05-14 19:41:54#mitan 以降はWebの規模に対応するためのスケールアウトに重点。あるいは「スパゲッティ」と「スパゲッティー」の違いの吸収など。
2010-05-14 19:42:41#mitan 検索システムのキーワード。逐次検索と索引検索。ベクトル空間法,n-gram,適合率と再現率などいろいろ。これから紹介
2010-05-14 19:43:30#mitan 逐次検索(しーけんしゃるさーち)。検索質問が入力されるたびに全文書をスキャン。インデキシング不要,更新は即時反映。検索速度はドキュメント数に比例 ⇔ 索引検索(いんでっくすさーち) 事前にインデックスを作成しておいて利用。文書が増えてもそんなに速度は落ちない。
2010-05-14 19:45:16検索システムを最初に学んだときは、情報要求と情報集合の両側から一つの内部表現に摺り寄せていく感じがなかなか理解できませんでした。自分で作ってみてやっとわかった。 #mitan
2010-05-14 19:45:26ベクトル空間モデルの話。Y!Jの頃、当時NTTデータにいらした結束さんに教えてもらったなあ。 #mitan
2010-05-14 19:47:37#mitan ベクトル空間法の説明。文書×キーワードのマッチングの行列をつくる→一行を取り出すとベクトルになる→ベクトル間の類似度を計れる 例. 内積距離で類似度を評価
2010-05-14 19:47:57急に中継が切れたりしたら、 @arg してください。一応、配信状況のチェックはしていますが。 (#mitan live at http://ustre.am/fDHD )
2010-05-14 19:49:28#mitan (このへんはたぶん古典的な技術なんだと思うけど,内容が前回と比べてだいぶレベルが上がった感じがする。つかベクトル空間法知りませんでしたorz
2010-05-14 19:49:58TFIDFのほうがベクトル空間法よりもベターに使われてると思うなぁ.実際はどーなんだろうか #mitan
2010-05-14 19:52:19#mitan TF・IDFの説明。キーワードの重要度の経験則~1つの文書でたくさん出るキーワードは重要(TF),文書集合中で偏って現れるキーワードほど重要(DF。どこでも引っ掛かる言葉がヒットしても嬉しくないよ,という話)→両者を掛け合わせてキーワードの重要度を計算。
2010-05-14 19:52:44