Hive : ORDER BY count(*) する場合は fields で count(*) as count ~ ORDER BY count にする必要がある。impala : as が使えないのでそのまま ORDER BY count(*)
2012-11-16 17:14:07ちょい複雑クエリ [6GB, 700万行] JOIN [20MB, 5万行] GROUP BY, ORDER BY sum() でHiveジョブ数が3, 35map, 8redでHive:132s, impala:56s
2012-11-16 17:54:59Hiveは複数サーバでCPU稼働してるけどimpalaはほぼ1サーバだから、時間差が少なくてもCPUリソースという点ではもっと差がありそう
2012-11-16 17:55:15今のところデータ容量が少ないほどHiveとの処理時間差が大きい。データ容量がGB単位になるとたいていのクエリが2倍差
2012-11-16 17:55:45CPU: 中央impaladが200~1300%で稼働した(MAX1500%)。クエリによっては200%前後固定。周辺impaladはhdfsが少し動くだけ
2012-11-16 17:58:16Memory: impalad起動時RSSが300MB、6GBのJOINとか色々やった後で600MB。VSLは16GB。周辺impaladは据え置き
2012-11-16 17:58:51impaladオプションはたくさんあって、なんちゃらthreadsはいくつかあるけど、memoryを指定するのはなさそう
2012-11-16 18:00:57DiskI/O微小、Memory中量、CPU大量だから、YARNよりCPU/Memのリソースが少なそうな分、速度以上に良いような気がしなくもない
2012-11-16 18:03:57実践するとなると、CPUとMemに気を使うことになるけど、CPUは制限できずほぼMAXまで使おうとし、Memはまだ予測できないから
2012-11-16 18:05:04クエリの種類によるところは多いと思いますが、GB単位でcount(*)でも2倍ぐらいの差になります? RT @GedowFather: 今のところデータ容量が少ないほどHiveとの処理時間差が大きい。データ容量がGB単位になるとたいていのクエリが2倍差
2012-11-16 18:38:08@kernel023 GB単位だと1.6~2.2倍というのが多かったですね。容量多くしてもHive/impalaともにほぼ処理時間は比例しました
2012-11-16 18:41:19@GedowFather ありがとうございます!まとめを期待してます(ってTogetter読めと?w) 。社内に何かフィードバックできればいいんですが。 あと、細かい条件がわからないんですが、ベンチを公開しているサイトも出てきましたね。http://t.co/TnkjJcWx
2012-11-16 18:46:59先日のImpalaについてまとめ始めてみたら見出しだけで多いわ未検証の項目もあるわで来週少しずつ整理していくことにする
2012-11-18 06:07:16「今回、beta としてるのはCDH4のクラスタが無いのでクラスタでのテストが出来てないってこと...なのでbetaとして出してクラスタ持ってる人にテストしてもらおうかなと思って。。」
2012-11-22 17:52:26