2013/02/14 デブサミ2013【14-D-1】600億件を数十秒で検索するクラウド規模クエリサービスBigQuery #devsumiD
Developers Summit 2013 Action!
http://event.shoeisha.jp/detail/1/
<講演概要>
Google BigQueryは、クラウド上の数千台というサーバーを利用した大規模並列クエリサービスです。Google社内では2006年から利用されている「Dremel」と呼ばれるインフラを社外向けサービスとして公開したもので、600億件のデータに対する検索を、インデックスをまったく利用しないフルスキャンで数十秒という圧倒的なパフォーマンスで実行可能です。このDremelで利用されているカラム型ストレージのテクノロジーの解説をはじめ、BigQueryとMapReduce/Hadoopの違いと使い分け方について掘り下げます。
続きを読む
猫提督ff/kei
@nekoteitoku
Dremel: Interactive Analysis of Web-Scale Datasets あとで読む。 #devsumiD 14-D-1
2013-02-14 10:29:32
nyamairi
@nyamairi
Dremelの利用。Webコンテンツの分析、Androidアプリのインストールトラッキング、スパムデータ解析、etc... #devsumiD
2013-02-14 10:30:43
猫提督ff/kei
@nekoteitoku
市場がGoogleを使い他押すフェーズに入ってるから、わざわざクローンを作る必要がないのかな。それとも注目されていないだけ? 2012/5公開。 名前が悪い説w #devsumiD 14-D-1
2013-02-14 10:31:23
nyamairi
@nyamairi
Dreme = Google BigQuery。1クエリ$0.035/GB。ストレージ月額$0.12/GB。cloud.google.com で無償で試せる。 #devsumiD
2013-02-14 10:32:55
かめ(かめひろ)
@kamehiro17
ビッグデータ処理、コストとスケールとクエリスピードを考えると、DWHでもMapReduceでもなくDremelになる。で、そのDremelを一般公開したのがGoogleBigQuery。デモは無償で一般公開中。使ってみたい。 #devsumiD
2013-02-14 10:34:15
nyamairi
@nyamairi
サンプルクエリ:select top(title), count(*) from publicdata:samples.wikipedia where wp_namespace = 0; #devsumiD
2013-02-14 10:39:22
nyamairi
@nyamairi
正規表現による文字列マッチングが速い。regexp_match(title, '[0-9]+')。三億件に対して3.9秒。 #devsumiD
2013-02-14 10:41:34
猫提督ff/kei
@nekoteitoku
正規表現によるマッチングが速いのはすごいね。 構造解析したい。 複雑な正規表現はどうなの? #devsumiD 14-D-1
2013-02-14 10:42:05