2013/02/14 デブサミ2013【14-D-1】600億件を数十秒で検索するクラウド規模クエリサービスBigQuery #devsumiD

Developers Summit 2013 Action! http://event.shoeisha.jp/detail/1/ <講演概要> Google BigQueryは、クラウド上の数千台というサーバーを利用した大規模並列クエリサービスです。Google社内では2006年から利用されている「Dremel」と呼ばれるインフラを社外向けサービスとして公開したもので、600億件のデータに対する検索を、インデックスをまったく利用しないフルスキャンで数十秒という圧倒的なパフォーマンスで実行可能です。このDremelで利用されているカラム型ストレージのテクノロジーの解説をはじめ、BigQueryとMapReduce/Hadoopの違いと使い分け方について掘り下げます。 続きを読む
0
猫提督ff/kei @nekoteitoku

Dremel: Interactive Analysis of Web-Scale Datasets あとで読む。 #devsumiD 14-D-1

2013-02-14 10:29:32
Kenji Asao @asapon

インデックス使ってないけどマシンを数千台使ってる #devsumi #devsumiD

2013-02-14 10:30:05
nyamairi @nyamairi

Dremelの利用。Webコンテンツの分析、Androidアプリのインストールトラッキング、スパムデータ解析、etc... #devsumiD

2013-02-14 10:30:43
猫提督ff/kei @nekoteitoku

市場がGoogleを使い他押すフェーズに入ってるから、わざわざクローンを作る必要がないのかな。それとも注目されていないだけ? 2012/5公開。 名前が悪い説w #devsumiD 14-D-1

2013-02-14 10:31:23
安心沢ガブ美 @gab_km

"Google BigQuery" は公開版の Dremel #devsumiD

2013-02-14 10:31:51
nyamairi @nyamairi

Dreme = Google BigQuery。1クエリ$0.035/GB。ストレージ月額$0.12/GB。cloud.google.com で無償で試せる。 #devsumiD

2013-02-14 10:32:55
かめ(かめひろ) @kamehiro17

ビッグデータ処理、コストとスケールとクエリスピードを考えると、DWHでもMapReduceでもなくDremelになる。で、そのDremelを一般公開したのがGoogleBigQuery。デモは無償で一般公開中。使ってみたい。 #devsumiD

2013-02-14 10:34:15
猫提督ff/kei @nekoteitoku

Google SpreadsheetからBigQueryを呼び出せるのか #devsumiD 14-D-1

2013-02-14 10:36:54
安心沢ガブ美 @gab_km

おー、BigQuery って普通の SQL みたいにさわれんの? #devsumiD

2013-02-14 10:38:19
nyamairi @nyamairi

サンプルクエリ:select top(title), count(*) from publicdata:samples.wikipedia where wp_namespace = 0; #devsumiD

2013-02-14 10:39:22
安心沢ガブ美 @gab_km

デモ。3億件のデータ、6秒足らずで取得した。 #devsumiD

2013-02-14 10:39:43
nyamairi @nyamairi

正規表現による文字列マッチングが速い。regexp_match(title, '[0-9]+')。三億件に対して3.9秒。 #devsumiD

2013-02-14 10:41:34
どみにをん525 @Dominion525

9GB以上3億件のデータに対する正規表現が4秒弱。 #devsumiD

2013-02-14 10:41:50
猫提督ff/kei @nekoteitoku

正規表現によるマッチングが速いのはすごいね。 構造解析したい。 複雑な正規表現はどうなの? #devsumiD 14-D-1

2013-02-14 10:42:05
安心沢ガブ美 @gab_km

正規表現の文字列マッチングも、3億件が4秒程度で完了。 #devsumiD

2013-02-14 10:42:18
どみにをん525 @Dominion525

SQLぽく書ける上にサブクエリにもふつうに対応してるのか。 #devsumiD

2013-02-14 10:42:37
どみにをん525 @Dominion525

72GBの正規表現が10秒かからないww #devsumiD

2013-02-14 10:43:12
猫提督ff/kei @nekoteitoku

DWHを例にしてるけど応用分野多いね、これ。 手軽に試せるのかな。 #devsumiD 14-D-1

2013-02-14 10:48:32
どみにをん525 @Dominion525

fluentdでログとかあつめてまくって、BigQueryで解析すれば捗りそう。 #devsumiD

2013-02-14 10:49:59
どみにをん525 @Dominion525

無料アカウントだと上限が2TBまで。十分すぎるw #devsumiD

2013-02-14 10:50:39
nyamairi @nyamairi

速い理由:カラム指向ストレージを使用している。トラフィックが最小化される。圧縮率が高い。 #devsumiD

2013-02-14 10:51:52