UIMA=非構造化テキストから有益な情報を抽出するフレームワーク。楽しそう。良い方は[you-ee-muh] #SolrJp
2011-05-16 19:17:42Solr3.1のFastVectorHighlghter→巨大なドキュメントに対して高速なハイライトを実現、ngramでハイライトを実現 #SolrJP
2011-05-16 19:20:56Solr3.1ではDIHのバグがかなり修正されている模様 #SolrJP
2011-05-16 19:21:29replicationのバグのJIRAオープンしたのオレオレ。とまったく自慢にならないことを書いてみる。 #SolrJP
2011-05-16 19:21:33Wikiは実装との乖離が進んでしまうので、google-code-prettifyを使ってJavadocに各種情報をまとめるようにした、と。なるほど発想は理解できるが、prettifyでなんとかなるものか?あとでちょっと調べる。 #SolrJP
2011-05-16 19:22:09lucene-gosen 新しいTokenizerプロジェクト。jarファイルに辞書が入ってるので簡単にデプロイ。マピオンではニュース記事の解析にSenを使っているけど、custom辞書を取り込めるようになったらこっちを使いたいな〜 #SolrJp
2011-05-16 19:24:01形態素解析にMeCab(CMeCab), Sen, GoSen, Igoと色々あって悩んでいたけど、lucene-gosenがスタンダードになるといいなぁ。 #SolrJP
2011-05-16 19:25:40「Keep maintenance」がOSSプロダクトの売りになるとは……いや理解はできるんですが。勝手にやれよウリャーと言えるのもOSSの魅力ですよね。メンテナンスが頻繁ってことはパッチ書くのも一気に仕上げないとつらいのかな。そんなことはないか。 #SolrJP
2011-05-16 19:26:15UIMAのデモコード http://bit.ly/lPc327 #SolrJP
2011-05-16 19:27:50uimaって何?と思ってぐぐったら「UIMAはこれらの非構造化データの取り扱いに対して、IBMが示した解のひとつです。」だそうで。 http://ibm.co/ivhPb7 #SolrJP
2011-05-16 19:28:04