外道父 | Noko
@GedowFather
3.1GB, 6895209行, 15file のCOUNT(distinct xxx)でHive 50s : Impala 27s。次は容量倍にしたり微複雑なクエリにしたり
2012-11-16 12:20:57
外道父 | Noko
@GedowFather
痒いところに手が届く情報:impalaはORDER BY に LIMIT がついてないと怒られます ERROR: ORDER BY without LIMIT currently not supported
2012-11-16 12:24:21
Sadayuki Furuhashi
@frsyuki
@GedowFather Impala だと大きなテーブル同士の JOIN は厳しいようですが、普通の GROUP BY + 集約関数でも、GROUP BY で出てきたグループ数が多くなると遅くなりそうです。それでも LIMIT を付けると速いかもです。アーキテクチャ上は。
2012-11-16 12:27:48
Sadayuki Furuhashi
@frsyuki
差が2倍くらいだと、チューニングパラメータを変えるくらいの違いしか無いと言う話に…。10倍くらい速くなると嬉しいな。数百GBの GROUP BY + 集約関数で。
2012-11-16 12:30:03
外道父 | Noko
@GedowFather
CPU情報:30秒間のimpalaクエリにおいて、(仮)中心impaladは単独プロセスでCPU1100%を観測。周辺impaladは3~4ノードで1~2秒間だけ500%
2012-11-16 12:37:20
Sho Shimauchi
@shiumachi
@GedowFather 1つのクエリでディスクあたりに読み込むデータサイズが増えると、その分ディスクIOの速度が支配的になっていくというのは考えられますね。環境の詳細や結果の詳細を見ていないんであくまで推測ですが
2012-11-16 12:43:14