第16回Lucene/Solr勉強会のツイートまとめ #SolrJP

第16回Lucene/Solr勉強会のツイートをまとめました。
0
tatsuroh@山籠り @t2hnd

図書館司書の職人芸的な話。Indexを人手で作成する。分かち書きや読みの転写などの複雑なルールを策定し、教育を通じて全国の図書館で統一的に実施していた。改めて聞くとすごい世界 #SolrJP

2015-05-13 19:44:32
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

翻字と包摂は超大変。ローマ字のルールもヘボン式や訓令式があって大変。#SolrJP

2015-05-13 19:46:19
abenben.eth @abenben

わーい、入れてもらった(^^) #SolrJP

2015-05-13 19:47:40
Masao Takaku @tmasao

大向さんの議論は図書館文化と検索技術と題して、言語処理の歴史と図書館目録の世界の話をつなげるところから始まっていてすごく新鮮である。 #solrjp

2015-05-13 19:48:16
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

調査では見逃しが許されないので、Recall は限りなく高くしなければならない。#SolrJP

2015-05-13 19:48:57
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

国立情報学研究所のサービスで、CiNiiを提供してます。学生はこれか、Google Scholarを使うのは常識。#SolrJP

2015-05-13 19:51:43
Masao Takaku @tmasao

CiNii Dissertationsは初めて見た。まもなくリリース予定。検索エンジンはElasticSearchらしい。 #solrjp

2015-05-13 19:54:02
tatsuroh@山籠り @t2hnd

CiNii ArticlesはSolr + 某社パッケージ。CiNii BooksはSolr。CiNii Dissertations(開発中)はelasticsearch。外見は統一しているが、内部的にはそれぞれ検索エンジンの構成が違う #SolrJP

2015-05-13 19:54:29
tatsuroh@山籠り @t2hnd

CiNii Dissertations(開発中)は博士論文検索用。昨年の論文ねつ造事件以降博士論文検索は需要が高いとのこと #SolrJP

2015-05-13 19:55:20
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

CiNiiは、Articles は PostgreSQL、Books は MySQL、Dissertactions は Elasticsearchです。#SolrJP

2015-05-13 19:55:47
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

Booksでは、言語が不明だったりするので、トークナイザーをかなり頑張った。1100万書誌、160万著者。お役所はヒットしても予算が増えないのが辛い。#SolrJP

2015-05-13 19:59:37
tatsuroh@山籠り @t2hnd

CiNii Booksは法廷停電時はAWSに逃がす。止まると学生の悲惨なツイートが聞こえてくるw #SolrJP

2015-05-13 19:59:40
tatsuroh@山籠り @t2hnd

KAKEN/SEIKA、科研費の細目が毎年変わる。学問の発展とともに変化するのは必然だが、検索可能性を維持しつつ対応していくのが大変。新バージョンはRiak+Solrで開発中。 #SolrJP

2015-05-13 20:03:09
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

新しいKAKEN/SEIKAでは、riakにチャレンジ!Solrが入ったから。#SolrJP

2015-05-13 20:04:17
Masao Takaku @tmasao

KAKEN/SEIKAも新しいアーキテクチャで秋にリリース予定と。Riak? #solrjp

2015-05-13 20:04:58
CiNii(さいにぃ) @cinii_jp

初代がお話をしているようで,CiNiiというワードがたくさん出てます #SolrJP

2015-05-13 20:07:34
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

次世代の検索とは?情報のグラフ関係がインダックスされて関連する情報や詳細な情報が得られる。#SolrJP

2015-05-13 20:09:09
tatsuroh@山籠り @t2hnd

ヤフー株式会社 近藤さん、「ランキングチューニングと定量評価」。 #SolrJP

2015-05-13 20:14:54
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

クリーンナップは、ヤフーの近藤さんで、「ランキングチューニングと定量評価」です。ふむふむ。#SolrJP

2015-05-13 20:17:49
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

フィールドへの重みと、形態素解析とNグラムの重みをチューニング。#SolrJP

2015-05-13 20:19:04
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

ランキングの良し悪しが主観ではいけない。(あたりまえだね)#SolrJP

2015-05-13 20:19:59
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

定量評価で数値化するとよいが、いろいろ問題もある。#SolrJP

2015-05-13 20:20:52
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

NDCGを紹介します。再現率と適合率を合わせたもので、順位によっても変わります。#SolrJP

2015-05-13 20:22:23
𓎛𓇋𓂋𓍯𓎡𓇋 (Hiroki) @taniokah

NDCGは、DCGをIDCGで割るのですが、計算コストがかかって大変そう… #SolrJP

2015-05-13 20:26:14