更新 2022年3月21日作成 2011年12月19日

19_第7回 Solr＆検索エンジン勉強会( #SolrJP )

告知：http://atnd.org/events/22329 ハッシュタグ：#SolrJP 1. 株式会社エヌツーエスエム　菅谷信介さん　　全文検索サーバ Fessで何ができるのか？続きを読む

プログラミング solrjp

kimukou2628
3763
0
3
1

Jun Ohtani @johtani

文書全部をくっつけてからSuffixArrayつくるのかー #solrjp

2011-12-19 20:36:54

焼肉8人前 @ryonext

RedBullを検索 #SolrJP

2011-12-19 20:37:14

close_yutori @kimukou2628

#solrjp RedBulｌを検索してみましょう～ 1）出現位置をメモリ上にロード＜どの文章にあるか 2）出現位置をソート 3）左側からソート 4）ソートしたデータから回数を出現回数取得

2011-12-19 20:37:31

Jun Ohtani @johtani

転置インデックスよりもSuffix Arrayの仕組みは速くならないらしい。 #solrjp

2011-12-19 20:37:58

MOROZUMI,Hiroyuki @morozumi_h

RT @johtani: 先ほどの発表資料をSlideShareにアップしました。http://t.co/Mq8NUu76 #solrjp

2011-12-19 20:37:59

KITAZAKI Shigeru @kshigeru

一般論として、速度的には転置インデクス > Suffix Array > n-gram らしい。100%ではないけれど。 #SolrJP

2011-12-19 20:39:41

焼肉8人前 @ryonext

Suffix Arrayの強み。検索漏れがない、n-gramより速い、長いクエリに強い #SolrJP

2011-12-19 20:39:43

Jun Ohtani @johtani

THIS IS ITは検索屋さんがぶち切れる対象！ #solrjp

2011-12-19 20:39:45

Eiji Iwazawa @iwazer

Suffix Arrayは検索漏れがない。長いクエリに対して速い。 #solrjp

2011-12-19 20:39:55

close_yutori @kimukou2628

#solrjp SuffixArrayの長所）・検索漏れがない＜n-gramと同じ・n-gramより速い＜文字の長さに依存しない転置ファイル・・「This IS IT」は大変＜これも楽

2011-12-19 20:40:11

焼肉8人前 @ryonext

RT @morozumi_h: 2011/12/19_第7回 Solr＆検索エンジン勉強会( #SolrJP ) http://t.co/7qFdLtpd

2011-12-19 20:40:19

Jun Ohtani @johtani

SedueではHaskellで生成されたC++のソースが頑張ってる？ #solrjp

2011-12-19 20:40:48

close_yutori @kimukou2628

#solrjp インデックス構築）・構築アルゴリズムが難しい＜Haskellで作られているらしい・インデックス＝メモリ上に納められない＝＞HDD上で作る＝＞ランダムアクセスの形だと凄く大変<sc3,dc5アルゴリズムを使う必要があり

2011-12-19 20:42:04

Jun Ohtani @johtani

差分更新が苦手。SuffixArrayの全文検索のインデックス更新 #solrjp

2011-12-19 20:42:40

Hirotaka Niisato @hirotakaster

これとか - SAIS - http://t.co/95DHyrGO #solrjp

2011-12-19 20:42:54

Jun Ohtani @johtani

Sedueはアーキテクチャで更新速度を上げている #solrjp

2011-12-19 20:43:52

close_yutori @kimukou2628

#solrjp インデックス更新）・差分更新・・一から構築し直しになるので出来ない＜転置ファイルなら追記が可能・ファイル入出力が多いので一度に沢山は作れない・・ディスク性能に依存＜＝Sedueでは？ SA＋インメモリn-gram＜更新分＞のハイブリッド

2011-12-19 20:43:56

焼肉8人前 @ryonext

Suffix検索上のデメリット、二分探索はHDDと相性が悪い #SolrJP

2011-12-19 20:44:09

Jun Ohtani @johtani

#solrjp RT @hirotakaster: そうだ！！そこでfusion-io...

2011-12-19 20:45:04

close_yutori @kimukou2628

#solrjp 二分探索・・HDDと相性最悪＝＞SSDならOK ＝＞SSD対応のクラウドが増えると良いな～の話圧縮接尾辞配列＝＞可能だが低速 Sedye。。最初の20段（80MB）をキャッシュとして挟む

2011-12-19 20:46:15

Jun Ohtani @johtani

ストップワードはSolrでも悩ましい。 #solrjp

2011-12-19 20:48:20

Jun Ohtani @johtani

2011に治ってるｗ #solrjp RT @Ijokarumawak: Check out this SlideShare presentation : ApacheCon NA 2011 report http://t.co/Hr5DwCJ2

2011-12-19 20:49:30

close_yutori @kimukou2628

#solrjp ストップワード）・SAを二分探索・・ネックにはならない・該当区間＝＞出現位置ロード 500万ポジション（位置情報アクセス）／秒＜4000万くらい無いと厳しいらしい・出現位置ソート＜＝実際はmallocしたページフォルトが凄くヤバイ

2011-12-19 20:49:39

close_yutori @kimukou2628

#solrjp インデックスサイズ・・でっかいSSD買ってね＜「Fusion-io」でもいい気がするんだがw Sedue・・40バイトぐらい。

2011-12-19 20:51:38

Hirotaka Niisato @hirotakaster

遺伝子の検索で超活躍. -> Suffix Array #solrjp

2011-12-19 20:51:43

1 2 ・・ 4 次へ

いま話題のタグ