6
外道父/げどちー @GedowFather
Impalaを本番環境にぶっ込んでやった。ありがちな集計クエリで10倍、ただのカウントで30倍の処理時間差を計測
外道父/げどちー @GedowFather
Impala検証利用データ:17MB, 45,000行 で GROUP & ORDER BY が Hive 63s : Impala 7s。COUNTで Hive 34s : Impala 1s
Takuya UESHIN @ueshin
Impala本番投入とかすごい。> RT
Tatsuo Kawasαki @kernel023
@GedowFather 差し支えなければ教えてほしいんですが、何ノードぐらいでやっていらっしゃるんしょうか?
外道父/げどちー @GedowFather
HiveとImpalaの比較では、HiveはMap数とかでかなり変わるから、ベストチューニングなHiveかと言われると自信はないが、Impalaが速いことは間違いない
外道父/げどちー @GedowFather
ちょっとずつ検証データの容量と行数を大きくしていってイエローゾーンを見極める
しょゆ @showyou
Impala本番投入もすごいけどCDH4の本番投入も(ry
Sadayuki Furuhashi @frsyuki
@GedowFather データ量が10000倍くらいだと、どうなります…?
tagomoris @tagomoris
@GedowFather ぜ、ぜひその調子でGBクラスのデータで……
matsuou1 @matsuou1
とりあえず数GBぐらいのデータは準備している。少々お待ちを。
しょゆ @showyou
50GBくらいJOINしてみてもらいたい
tagomoris @tagomoris
業界のひとびとがすごい勢いで GedowFather さんのtweetに注目している
Akihiro Okuno @choplin
本番にImpala投入か。Impala専用クラスタを組んだのかな。
Tatsuo Kawasαki @kernel023
まだベータ版ですからw。。。 RT @GedowFather: ちょっとずつ検証データの容量と行数を大きくしていってイエローゾーンを見極める
外道父/げどちー @GedowFather
他人の本番環境だと思ってハハハこやつらめ
matsuou1 @matsuou1
@choplin 専用環境ではないです。とりあえず、データがある環境で色々試せる状況を作ったと言った感じです。
tagomoris @tagomoris
他人の本番環境は俺の試験環境、俺の本番環境は俺の本番環境
しょゆ @showyou
RT @tagomoris: 他人の本番環境は俺の試験環境、俺の本番環境は俺の本番環境
tagomoris @tagomoris
あのちょっと某C社のかた、RTが速攻すぎますよ
Akihiro Okuno @choplin
@matsuou1 リソース管理ができないので他にMR Jobが動いている環境だとしんどくないですか?
外道父/げどちー @GedowFather
他人の本番環境でヒャッハーするモヒカンどもが巣食う業界それがBigData
matsuou1 @matsuou1
@choplin その問題は認識していて、現状のクラスタで空けてるリソース内で試そうとしています。だからデータ量も小さいところから少しづつ増やしていくと言った感じです。
Yutaka Matsubara @mopemope
Impalaへの憧れハンパない
残りを読む(104)

コメント

Hidenori MATSUKI @mazgi 2012年11月16日
ちゃんと着色しといた
ログインして広告を非表示にする
ログインして広告を非表示にする