マイニング探検会第2回 #mitan

#mitan で検索しました。 誰でも編集可能ですので、ぜひ再現率を高めてください。 【つぶやけ!CiNii】 https://mbc.dl.itc.u-tokyo.ac.jp/tsubuyake_CiNii/ 続きを読む
0
前へ 1 2 ・・ 7 次へ
myrmecoleon @myrmecoleon

#mitan さて本編。清田先生から。今回はサーチエンジンの裏側,検索システムに技術について。

2010-05-14 19:28:20
@dietrich_avatar

ciniiにおけるtwitter需要と、twitterにおけるcinii需要ってどれくらいあるんだろう #mitan

2010-05-14 19:28:48
myrmecoleon @myrmecoleon

#mitan 検索システムのモデル。情報要求→検索質問→[ 内部表現→\マッチング!/←内部表現 ]←テキスト集合←情報集合 情報要求と情報集合を内部表現に変換してマッチングしてフィードバック。

2010-05-14 19:31:00
myrmecoleon @myrmecoleon

検索システムのモデル,テキスト検索・QAシステム・ヘルプ,みんな基本は同じ仕組み。 #mitan

2010-05-14 19:33:46
myrmecoleon @myrmecoleon

#mitan 検索技術の歴史。1950年,キーワード抽出やKWICインデックス。1957年のスプートニクショックで米国,科学情報検索システムへの支援強化→1960年代に文献検索システム実用化。MEDLARS(1964年~。のちのMEDLINE)など。

2010-05-14 19:35:59
myrmecoleon @myrmecoleon

1970-80 全文検索システムの実用化と性能向上。SaltonらのSMARTシステム(ベクトル空間法・TFIDF・適合性フィードバック),テストコレクションによる客観的精度評価の試みなど。 1990年代,いくつかの評価型ワークショップが開催。 #mitan

2010-05-14 19:38:24
@dietrich_avatar

NTCIRは6月にワークショプがあります #mitan

2010-05-14 19:39:39
myrmecoleon @myrmecoleon

#mitan 評価型ワークショップというのは新聞記事などのデータを提供して参加者がそれをもとに技術を開発する感じかな。TREC・MUC・NTCIR@NII を紹介

2010-05-14 19:39:42
myrmecoleon @myrmecoleon

1990年代後半。Webテキスト集合を検索対象として利用。ハイパーリンク構造によるランキングアルゴリズムなどが研究→HITSアルゴリズム,GoogleのPageRankなど 2000年代にこれらが活用されてWebサーチエンジンが飛躍的に発展。 #mitan

2010-05-14 19:41:25
myrmecoleon @myrmecoleon

#mitan 以降はWebの規模に対応するためのスケールアウトに重点。あるいは「スパゲッティ」と「スパゲッティー」の違いの吸収など。

2010-05-14 19:42:41
myrmecoleon @myrmecoleon

#mitan 検索システムのキーワード。逐次検索と索引検索。ベクトル空間法,n-gram,適合率と再現率などいろいろ。これから紹介

2010-05-14 19:43:30
myrmecoleon @myrmecoleon

#mitan 逐次検索(しーけんしゃるさーち)。検索質問が入力されるたびに全文書をスキャン。インデキシング不要,更新は即時反映。検索速度はドキュメント数に比例 ⇔ 索引検索(いんでっくすさーち) 事前にインデックスを作成しておいて利用。文書が増えてもそんなに速度は落ちない。

2010-05-14 19:45:16
Mitsuishi Tomomi 三津石智巳 @tlila

検索システムを最初に学んだときは、情報要求と情報集合の両側から一つの内部表現に摺り寄せていく感じがなかなか理解できませんでした。自分で作ってみてやっとわかった。 #mitan

2010-05-14 19:45:26
岡本真 原則 #saveMLAK & @LRGjp PRのみに使用 @arg

ベクトル空間モデルの話。Y!Jの頃、当時NTTデータにいらした結束さんに教えてもらったなあ。 #mitan

2010-05-14 19:47:37
myrmecoleon @myrmecoleon

#mitan ベクトル空間法の説明。文書×キーワードのマッチングの行列をつくる→一行を取り出すとベクトルになる→ベクトル間の類似度を計れる 例. 内積距離で類似度を評価

2010-05-14 19:47:57
岡本真 原則 #saveMLAK & @LRGjp PRのみに使用 @arg

急に中継が切れたりしたら、 @arg してください。一応、配信状況のチェックはしていますが。 (#mitan live at http://ustre.am/fDHD )

2010-05-14 19:49:28
myrmecoleon @myrmecoleon

#mitan (このへんはたぶん古典的な技術なんだと思うけど,内容が前回と比べてだいぶレベルが上がった感じがする。つかベクトル空間法知りませんでしたorz

2010-05-14 19:49:58
Hayato IKEDA/イケダ ハヤト @Hayyyatoo

TFIDFのほうがベクトル空間法よりもベターに使われてると思うなぁ.実際はどーなんだろうか #mitan

2010-05-14 19:52:19
myrmecoleon @myrmecoleon

#mitan TF・IDFの説明。キーワードの重要度の経験則~1つの文書でたくさん出るキーワードは重要(TF),文書集合中で偏って現れるキーワードほど重要(DF。どこでも引っ掛かる言葉がヒットしても嬉しくないよ,という話)→両者を掛け合わせてキーワードの重要度を計算。

2010-05-14 19:52:44
前へ 1 2 ・・ 7 次へ