GedowFatherさんがImpalaを本番投入した件 (5ページ目)

railute @railute

うぁぁぁぁぁ！！ Impala 楽しいそぉぉぉぉ！！試してぇぇぇぇぇぇ！！！

2012-11-16 14:51:15

工藤雅人 @MKudoTw

やっぱインパラ見ないとダメか……

2012-11-16 16:00:48

外道父 | Noko @GedowFather

Hive : ORDER BY count(*) する場合は fields で count(*) as count ～ ORDER BY count にする必要がある。impala : as が使えないのでそのまま ORDER BY count(*)

2012-11-16 17:14:07

外道父 | Noko @GedowFather

ちょい複雑クエリ [6GB, 700万行] JOIN [20MB, 5万行] GROUP BY, ORDER BY sum() でHiveジョブ数が3, 35map, 8redでHive:132s, impala:56s

2012-11-16 17:54:59

外道父 | Noko @GedowFather

Hiveは複数サーバでCPU稼働してるけどimpalaはほぼ１サーバだから、時間差が少なくてもCPUリソースという点ではもっと差がありそう

2012-11-16 17:55:15

外道父 | Noko @GedowFather

今のところデータ容量が少ないほどHiveとの処理時間差が大きい。データ容量がGB単位になるとたいていのクエリが２倍差

2012-11-16 17:55:45

外道父 | Noko @GedowFather

小さ目のデータを回数多く扱うシステムにとっては救世主かもしれん

2012-11-16 17:57:10

外道父 | Noko @GedowFather

本番環境だから横っちょでYARNがゴリゴリ動いてて少しアレだけど簡単なまとめ

2012-11-16 17:58:04

外道父 | Noko @GedowFather

CPU: 中央impaladが200～1300%で稼働した(MAX1500%)。クエリによっては200%前後固定。周辺impaladはhdfsが少し動くだけ

2012-11-16 17:58:16

外道父 | Noko @GedowFather

Memory: impalad起動時RSSが300MB、6GBのJOINとか色々やった後で600MB。VSLは16GB。周辺impaladは据え置き

2012-11-16 17:58:51

外道父 | Noko @GedowFather

DiskI/O: impaladはほぼ使っていない

2012-11-16 17:59:05

外道父 | Noko @GedowFather

impaladオプションはたくさんあって、なんちゃらthreadsはいくつかあるけど、memoryを指定するのはなさそう

2012-11-16 18:00:57

外道父 | Noko @GedowFather

DiskI/O微小、Memory中量、CPU大量だから、YARNよりCPU/Memのリソースが少なそうな分、速度以上に良いような気がしなくもない

2012-11-16 18:03:57

外道父 | Noko @GedowFather

実践するとなると、CPUとMemに気を使うことになるけど、CPUは制限できずほぼMAXまで使おうとし、Memはまだ予測できないから

2012-11-16 18:05:04

外道父 | Noko @GedowFather

一部のNodeManagerを停止して、そこにimpaladのリクエストを投げる形が良いかもしれない

2012-11-16 18:05:49

外道父 | Noko @GedowFather

HDFSクラスタもう１つなんてまぁありえないしね

2012-11-16 18:07:00

Tatsuo Kawasαki @kernel023

クエリの種類によるところは多いと思いますが、GB単位でcount(*)でも2倍ぐらいの差になります？ RT @GedowFather: 今のところデータ容量が少ないほどHiveとの処理時間差が大きい。データ容量がGB単位になるとたいていのクエリが２倍差

2012-11-16 18:38:08

外道父 | Noko @GedowFather

@kernel023 GB単位だと1.6～2.2倍というのが多かったですね。容量多くしてもHive/impalaともにほぼ処理時間は比例しました

2012-11-16 18:41:19

Tatsuo Kawasαki @kernel023

@GedowFather ありがとうございます！まとめを期待してます（ってTogetter読めと？w）。社内に何かフィードバックできればいいんですが。あと、細かい条件がわからないんですが、ベンチを公開しているサイトも出てきましたね。http://t.co/TnkjJcWx

2012-11-16 18:46:59

切り取り線 @kiri_tori

✄----------- 11/17(土) -----------✄

2012-11-17 00:00:00

外道父 | Noko @GedowFather

BigDataモヒカン共に削られた精神を、愛息子に癒してもらうなど

2012-11-17 03:39:46

切り取り線 @kiri_tori

✄----------- 11/18(日) -----------✄

2012-11-18 00:00:00

外道父 | Noko @GedowFather

先日のImpalaについてまとめ始めてみたら見出しだけで多いわ未検証の項目もあるわで来週少しずつ整理していくことにする

2012-11-18 06:07:16

切り取り線 @kiri_tori

✄----------- 11/22(木) -----------✄

2012-11-22 00:00:00

御徒町＠MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

「今回、beta としてるのはCDH4のクラスタが無いのでクラスタでのテストが出来てないってこと...なのでbetaとして出してクラスタ持ってる人にテストしてもらおうかなと思って。。」

2012-11-22 17:52:26

いま話題のタグ