HathiTrustにおける検索のランキングについて。多言語文書だとisみたいな単語でもストップワードにすることができない(スウェーデン語では氷)。 #c4ljp
2013-02-13 04:19:20HathiTrustの検索の話。そもそも何を基準にランキングすべきか。本は章によって出てくる単語の分布が異なる。章ごとに分割してインデキシングすべきか?ランキングの評価は直感に頼る方法からA/Bテストのような方法に移りつつあるが、人手がかかることには変わりない。 #c4ljp
2013-02-13 04:29:46人名の検索について。姓名の順序、イニシャル、ミドルネームの有無、特殊文字の扱いなどに課題があり難しい。正規化、複数のインデックスを用意、翻字などによって解決を図る。 #c4ljp
2013-02-13 04:40:54#c4ljp 人名検索のやり方:手元で作ってる研究者総覧の人名検索機能 http://t.co/m9PPxYjv と考え方はほぼ同じなようだ。発表されてる内容は洗練されていてよろしそう。Solrフィルタ等を使うのは、ほんとによいアイデアなのかしら?
2013-02-13 04:49:09MARCをBIBFRAMEに変換してRedisに突っ込むという話。プロトタイプだけど普通に動いているっぽい。デンバー大学とコロラドカレッジの共同プロジェクト。 http://t.co/BXFrtSt6 #c4ljp
2013-02-13 05:01:18READMEによれば、各要素ごとにRedisのインスタンスを用意する仕組み? https://t.co/fZuNCndc #c4ljp
2013-02-13 05:02:44@tmasao Javaのコード中にPythonのコードを書いているみたいなので、JRubyを使えば似たようなことができるかもしれませんね #c4ljp
2013-02-13 05:11:48Code4Libの求人板。こういう場所だからというのもあるけど職域の広さにびっくりする。GIS Librarianとか。5年分ぐらいのデータがあるので変遷を追いかけると何かの研究になりそう。 http://t.co/V98mkCdp #c4ljp
2013-02-13 05:24:57Code4Lib 2013での @tmasao による #saveMLAK に関するライトニングトークの際のIRCのログ。 https://t.co/x9roRntK #c4ljp
2013-02-13 08:16:01#c4ljp #saveMLAK 大販売大会なう。 http://t.co/TW2kbWzH
2013-02-13 08:57:54#c4ljp @tmasao ライトニングトーク雄姿。 http://t.co/EQdufB1n
2013-02-13 08:58:02「Code4Lib 2013 in Chicago Day2 #c4ljp」をトゥギャりました。 http://t.co/p2c2VNMK
2013-02-13 09:24:30【知っ得】 Togetter新着 Code4Lib 2013 in Chicago Day2 #c4ljp http://t.co/Nt5nWw5B #togetter #twitter #hackEX
2013-02-13 09:33:03【注目のまとめ - Togetter】Code4Lib 2013 in Chicago Day2 #c4ljp - http://t.co/9lCu6fcF
2013-02-13 10:21:40【知っ得】 Togetter注目 Code4Lib 2013 in Chicago Day2 #c4ljp http://t.co/b6dl25pM #togetter #twitter #hackEX
2013-02-13 10:40:03