![](https://s.togetter.com/static/web/img/placeholder.gif)
クラウドコンピューティング講演会2014@首都大日野キャンパス
首都大学東京・教育改革推進事業「メニーコア・クラウド基盤技術の実践的教育」の主催で2014年7月17日に開催された「クラウドコンピューティング講演会」のまとめです。Elasticsearch Inc. の大谷純(@johtani)さんとクックパッドの兼山元太(@PENGUINANA_)さんにトークをお願いしました。
大谷純「入門 Elasticsearch」
https://speakerdeck.com/johtani/full-text-search-at-tmu
続きを読む
![](https://s.togetter.com/static/web/img/placeholder.gif)
ドキュメントにインデックス(索引)をつける作業が全文検索エンジンでは大事な処理。どの単語がどの文書に登場するのか数え上げたのが転置インデックスと呼ばれる索引。単語ごとに、文書IDのリストを持たせたりするのが一般的。単語の AND 検索や OR 検索で活用する。#tmucloud
2014-07-17 14:31:09![](https://s.togetter.com/static/web/img/placeholder.gif)
(文字)NグラムはN個の文字の連続を用いて検索する手法。計算が速い。しかし、単語でない切れ目で切れることがある。形態素解析は自然言語処理の手法で、単語の切れ目を認識する。自然に切れるが、辞書のメンテナンスが大変。日本語の形態素解析で代表的なソフトは mecab。#tmucloud
2014-07-17 14:37:02![](https://s.togetter.com/static/web/img/placeholder.gif)
@kazuhiro_kazama すみません、中継はありませんσ(^_^;) あとで togetter でまとめます! #tmucloud
2014-07-17 14:38:00![](https://s.togetter.com/static/web/img/placeholder.gif)
Elasticsearch は GitHub の検索でも使われている。オープンソース。Java で書かれていて、設定なしで手軽に使える。Elastic というのは「延びる」という意味。大量のデータを簡単に複数のマシン上で分散して検索できる。#tmucloud
2014-07-17 14:40:35![](https://s.togetter.com/static/web/img/placeholder.gif)
@woody_kawagoe 大変ですよ〜。新聞記事みたいなのはいいのですが、Twitter のつぶやきとか、顔文字とか、実用的にはいろいろまだ課題があります。興味を持った人は、研究室配属で小町研究室へ!(笑)#tmucloud
2014-07-17 14:42:33![](https://s.togetter.com/static/web/img/placeholder.gif)
@so1owingpixy #tmucloud の @johtani さん分のスライドは Speakerdeck か Slideshare で公開してくださるそうです。
2014-07-17 14:43:48