GedowFatherさんがImpalaを本番投入した件 (3ページ目)

tagomoris @tagomoris

自分以外に試してくれる人がいるのはいいものだなあ……

2012-11-16 12:01:10

外道父 | Noko @GedowFather

何やったかわからなくなりそうだったのでとりあえず１枚のテキストにずらずら保存していく作業

2012-11-16 12:04:03

外道父 | Noko @GedowFather

中心のimpaladとそれ以外のCPUもあとでみる

2012-11-16 12:15:38

外道父 | Noko @GedowFather

impaladがゲシュタルト崩壊してきた

2012-11-16 12:15:52

外道父 | Noko @GedowFather

3.1GB, 6895209行, 15file のCOUNT(distinct xxx)でHive 50s : Impala 27s。次は容量倍にしたり微複雑なクエリにしたり

2012-11-16 12:20:57

外道父 | Noko @GedowFather

容量が大きくなるほど、MpaReduce開始オーバーヘッドの差が影響しなくなってくのは１つあるだろうな

2012-11-16 12:21:59

外道父 | Noko @GedowFather

Hive, Impalaそれぞれ得意な集計関数とかあるのかな

2012-11-16 12:22:41

Geforce RTX 3060Ti @showyou

@GedowFather Hive早くないっすか？

2012-11-16 12:22:43

外道父 | Noko @GedowFather

痒いところに手が届く情報：impalaはORDER BY に LIMIT がついてないと怒られます ERROR: ORDER BY without LIMIT currently not supported

2012-11-16 12:24:21

Sadayuki Furuhashi @frsyuki

@GedowFather ファイル数よりノード数の方が多いんでしょうか…？

2012-11-16 12:25:06

tagomoris @tagomoris

だいぶ差が縮まってきた……ｗ

2012-11-16 12:27:31

Sadayuki Furuhashi @frsyuki

@GedowFather Impala だと大きなテーブル同士の JOIN は厳しいようですが、普通の GROUP BY + 集約関数でも、GROUP BY で出てきたグループ数が多くなると遅くなりそうです。それでも LIMIT を付けると速いかもです。アーキテクチャ上は。

2012-11-16 12:27:48

外道父 | Noko @GedowFather

ブドウ糖が切れたのでチョコレートを補給

2012-11-16 12:29:04

Sadayuki Furuhashi @frsyuki

差が２倍くらいだと、チューニングパラメータを変えるくらいの違いしか無いと言う話に…。10倍くらい速くなると嬉しいな。数百GBの GROUP BY + 集約関数で。

2012-11-16 12:30:03

Sadayuki Furuhashi @frsyuki

（横から言うだけの簡単なお仕事

2012-11-16 12:30:50

外道父 | Noko @GedowFather

connectするimpaladとそれ以外のimpaladの呼び名が欲しい

2012-11-16 12:33:45

外道父 | Noko @GedowFather

アーキテクチャ資料を見てくる。名前ねーかな

2012-11-16 12:34:46

Suguru ARAKAWA @ashigeru

悪人がいまさら

2012-11-16 12:35:24

三上俊輔 @shun0102

@GedowFather データの形式はSequenceFileでしょうか？Textですか？

2012-11-16 12:35:32

外道父 | Noko @GedowFather

CPU情報：30秒間のimpalaクエリにおいて、(仮)中心impaladは単独プロセスでCPU1100%を観測。周辺impaladは3～4ノードで1～2秒間だけ500%

2012-11-16 12:37:20

外道父 | Noko @GedowFather

あぁ・・・ノード数の分母がないと参考にならないか　まぁいいや

2012-11-16 12:37:39

Sho Shimauchi @shiumachi

打ち合わせ終わった。結局 Impala の件はその後どうなったんだ

2012-11-16 12:39:03

外道父 | Noko @GedowFather

中心impaladの重い処理はPlannerなのかCoordinatorなのか

2012-11-16 12:39:13

Sho Shimauchi @shiumachi

@GedowFather 1つのクエリでディスクあたりに読み込むデータサイズが増えると、その分ディスクIOの速度が支配的になっていくというのは考えられますね。環境の詳細や結果の詳細を見ていないんであくまで推測ですが

2012-11-16 12:43:14

三上俊輔 @shun0102

ImpalaはTrevniのファイルフォーマットが出てから試せばいいやと思ってる

2012-11-16 12:43:38

いま話題のタグ