マイニング探検会第2回 #mitan
言選Web http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html #mitan
2010-05-14 20:28:53前田さんの専門用語抽出スクリプト。優れものです。http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:30:06これかい?http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:30:56新着図書RSSのタグクラウドを作った際に、見事に形態素解析の精度を上げてくれました>専門用語抽出スクリプト (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:31:31#mitan (そういやうちのOPACからのNACSIS-CAT検索と Webcat Plus で検索インデックスが違うらしく,同じキーワードで検索しても引っ掛かる図書が違う とかよくあったなあ。
2010-05-14 20:32:44OPACは再現率上げたいという需要があると思うんだけど、形態素解析に頼るあたりなんだか面白いですね。そろそろ、文字n-gramに置き換えられていくのかな。 (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:34:26#mitan 質問。インプット側の話。自然言語で検索することについては現在どんな技術が進んでるのか等→清田:TSUBAKIの紹介。文中にある「障害」を「妨げ」と変換してたりもする。
2010-05-14 20:34:52#mitan TSUBAKIはクエリを構造化したりとかして頭のよい検索をしてるらしい。ただ普通の全文検索やベクトル空間とかと比べて遅い。ふむふむ
2010-05-14 20:37:05#mitan 岡本: Webは全体の適合文書が決してわからないので再現率に意味がない そこがOPACとWeb検索は大きく違う。
2010-05-14 20:40:06OPACでsitemap.xmlを提供している事例はあるんだろうか。そもそも、パーマリンクが無かったりするか。 (#mitan live at http://ustre.am/fDHD )
2010-05-14 20:41:03Ref. JASI - Japanese Agricultural Sciences Index http://www.affrc.go.jp/db_search/jasi #mitan
2010-05-14 20:43:26#mitan 農林水産研究情報総合センターのJASIでの事例。「わい化」という語が「わい」と「化」に分かれてしまう。そこで索引語に人力で追加した。最後は人手のチェックが大事
2010-05-14 20:43:58