クラウドコンピューティング講演会2014@首都大日野キャンパス

首都大学東京・教育改革推進事業「メニーコア・クラウド基盤技術の実践的教育」の主催で2014年7月17日に開催された「クラウドコンピューティング講演会」のまとめです。Elasticsearch Inc. の大谷純(@johtani)さんとクックパッドの兼山元太(@PENGUINANA_)さんにトークをお願いしました。 大谷純「入門 Elasticsearch」 https://speakerdeck.com/johtani/full-text-search-at-tmu 続きを読む
2
前へ 1 2 3 ・・ 13 次へ
ウッディ川越 @woody_kawagoe

vim grepとかだと複数のコードから一気にガーッて検索出来るからあってるのかな #tmucloud

2014-07-17 14:30:41
Mamoru B Komachi @mamoruk

ドキュメントにインデックス(索引)をつける作業が全文検索エンジンでは大事な処理。どの単語がどの文書に登場するのか数え上げたのが転置インデックスと呼ばれる索引。単語ごとに、文書IDのリストを持たせたりするのが一般的。単語の AND 検索や OR 検索で活用する。#tmucloud

2014-07-17 14:31:09
Yuma Kinoshita @pocopoco0000

検索でn-gramとかは使ってるのかなぁ #tmucloud

2014-07-17 14:31:23
Yuma Kinoshita @pocopoco0000

mecabに突っ込みます。 完成! #tmucloud

2014-07-17 14:33:42
まっつん @y_tp33

中学とか高校では、文節に分けるのに「~ね」とか付けてやってたの思い出した #tmucloud

2014-07-17 14:34:54
寿司食人🍣VTuberおじさん系スプラトゥーン3 @shunXnegi

n文字ずつ読んで見つけたらそこから検索文字数分読む奴? #tmucloud

2014-07-17 14:36:35
Yuma Kinoshita @pocopoco0000

n-gramで誤字訂正プログラム組んだ記憶 #tmucloud

2014-07-17 14:36:44
Mamoru B Komachi @mamoruk

(文字)NグラムはN個の文字の連続を用いて検索する手法。計算が速い。しかし、単語でない切れ目で切れることがある。形態素解析は自然言語処理の手法で、単語の切れ目を認識する。自然に切れるが、辞書のメンテナンスが大変。日本語の形態素解析で代表的なソフトは mecab。#tmucloud

2014-07-17 14:37:02
Mamoru B Komachi @mamoruk

@kazuhiro_kazama すみません、中継はありませんσ(^_^;) あとで togetter でまとめます! #tmucloud

2014-07-17 14:38:00
ウッディ川越 @woody_kawagoe

英語って単語の間に空白入れるから分かりやすいけど、日本語だとやっぱ大変なんすかね #tmucloud

2014-07-17 14:39:27
moznion @moznion

恥ずかしながらL1メモリ全く意識したこと無い

2014-07-17 14:39:45
Mamoru B Komachi @mamoruk

Elasticsearch は GitHub の検索でも使われている。オープンソース。Java で書かれていて、設定なしで手軽に使える。Elastic というのは「延びる」という意味。大量のデータを簡単に複数のマシン上で分散して検索できる。#tmucloud

2014-07-17 14:40:35
𝐩𝐞𝐢𝐧𝐚𝐧 @so1owingpixy

メモろうとしたらスライドが進んでしまった。SlideShareにあがるかな(チラッチラッ #tmucloud

2014-07-17 14:41:53
Mamoru B Komachi @mamoruk

@woody_kawagoe 大変ですよ〜。新聞記事みたいなのはいいのですが、Twitter のつぶやきとか、顔文字とか、実用的にはいろいろまだ課題があります。興味を持った人は、研究室配属で小町研究室へ!(笑)#tmucloud

2014-07-17 14:42:33
Mamoru B Komachi @mamoruk

@so1owingpixy #tmucloud@johtani さん分のスライドは Speakerdeck か Slideshare で公開してくださるそうです。

2014-07-17 14:43:48
前へ 1 2 3 ・・ 13 次へ