マイニング探検会第2回 #mitan
Ref. GETA / GETAssoc (国立情報学研究所) http://geta.ex.nii.ac.jp/ #mitan
2010-05-14 20:12:54#mitan GETAssocの紹介。GETAの後継。ベクトル空間法に基づく関連キーワード・文書の検索,クラスタリング。WebAPIを実装。データをITBファイルに変換→stpでデータベース作成,stmdと形態素解析と連携 (つかってみないとわからんなー
2010-05-14 20:14:03Ref. Google AJAX Search API http://code.google.com/intl/ja/apis/ajaxsearch/ #mitan
2010-05-14 20:14:09Ref. Yahoo! JAPAN 検索Web API http://developer.yahoo.co.jp/webapi/search/ #mitan
2010-05-14 20:14:17Ref. 開放型検索エンジン基盤TSUBAKI http://tsubaki.ixnlp.nii.ac.jp/api.html #mitan
2010-05-14 20:14:28#mitan Web検索APIの紹介。Google・Yahoo。あとTSUBAKI。/参考文献: 北「情報検索アルゴリズム」,2002 ほか
2010-05-14 20:15:29[myrmecoleon tweets ] #mitan Web検索APIの紹介。Google・Yahoo。あとTSUBAKI。/参考文献: 北「情報検索アルゴリズム」,2002 ほか
2010-05-14 20:15:35NTCIRは、初期のNTCIR-1, NTCIR-2では、学術情報を対象としたテストコレクションを作ってたはず。学会論文抄録集や科研費報告書からなる、今のCiNii/KAKEN DBの遠い遠い前身となる文書集合かな。NACSIS-IRと呼ばれてた頃…。 #mitan
2010-05-14 20:15:56スライド別ウィンドウにして並べて見てる。そうしないとわかんないものねぇ。 (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:16:46#mitan 清田:工学的なシステムはインプット・アウトプット。だが検索は人間が関わるからインタラクティブな部分があり,学際的な領域。
2010-05-14 20:19:20確かに,TF-IDFの考え方は重要ですね #mitan (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:20:06#mitan 岡本:GoogleのUI変更が大不評ってそういう話。エンジニアリング一本。情報工学的な部分以外の観点が大事。そういう発言が清田さんから出てくることが面白い
2010-05-14 20:20:55去年出版された「情報アクセスの新たな展開:情報検索・利用の最新動向」にも情報検索関連の概説を書きました。 http://www.bensey.co.jp/book/2182.html #mitan
2010-05-14 20:21:24namazuでもHyperEstraierでも実際に同じデータでDBを作って違いをみると「おお!」という感動が味わえます。実践がお勧め。 (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:21:59オンライン参加者の方々もコメントお気軽に~。 (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:22:37#mitan 質問がでないのでJUMANを紹介しながら形態素解析の実例。辞書が小さいから図書と館がわかれる とか
2010-05-14 20:22:55Ref. TermExtract http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html #mitan
2010-05-14 20:25:19#mitan 形態素解析でキーワード抽出してOPAC投げたら,分かち書きの仕組みが違ったので検索できませんでした という話から 東大・前田さんの専門用語抽出スクリプトの紹介。
2010-05-14 20:25:53#mitan (図書館員によるわかち書き,ってのも一種のインデキシングの仕組み,というか古典的なインデキシングそのものだよなー。形態素解析の結果とn-gramを直接マッチングしても合わない と同じレベル
2010-05-14 20:27:41