外道父 | Noko
@GedowFather
Impalaを本番環境にぶっ込んでやった。ありがちな集計クエリで10倍、ただのカウントで30倍の処理時間差を計測
2012-11-16 11:25:12
外道父 | Noko
@GedowFather
Impala検証利用データ:17MB, 45,000行 で GROUP & ORDER BY が Hive 63s : Impala 7s。COUNTで Hive 34s : Impala 1s
2012-11-16 11:28:33
Tatsuo Kawasαki
@kernel023
@GedowFather 差し支えなければ教えてほしいんですが、何ノードぐらいでやっていらっしゃるんしょうか?
2012-11-16 11:30:11
外道父 | Noko
@GedowFather
HiveとImpalaの比較では、HiveはMap数とかでかなり変わるから、ベストチューニングなHiveかと言われると自信はないが、Impalaが速いことは間違いない
2012-11-16 11:30:13
Tatsuo Kawasαki
@kernel023
まだベータ版ですからw。。。 RT @GedowFather: ちょっとずつ検証データの容量と行数を大きくしていってイエローゾーンを見極める
2012-11-16 11:34:12
matsuou1
@matsuou1
@choplin その問題は認識していて、現状のクラスタで空けてるリソース内で試そうとしています。だからデータ量も小さいところから少しづつ増やしていくと言った感じです。
2012-11-16 11:39:57