GedowFatherさんがImpalaを本番投入した件

まとめましょうそうしましょう。
6
前へ 1 2 3 ・・ 6 次へ
tagomoris @tagomoris

自分以外に試してくれる人がいるのはいいものだなあ……

2012-11-16 12:01:10
外道父 | Noko @GedowFather

何やったかわからなくなりそうだったのでとりあえず1枚のテキストにずらずら保存していく作業

2012-11-16 12:04:03
外道父 | Noko @GedowFather

中心のimpaladとそれ以外のCPUもあとでみる

2012-11-16 12:15:38
外道父 | Noko @GedowFather

impaladがゲシュタルト崩壊してきた

2012-11-16 12:15:52
外道父 | Noko @GedowFather

3.1GB, 6895209行, 15file のCOUNT(distinct xxx)でHive 50s : Impala 27s。次は容量倍にしたり微複雑なクエリにしたり

2012-11-16 12:20:57
外道父 | Noko @GedowFather

容量が大きくなるほど、MpaReduce開始オーバーヘッドの差が影響しなくなってくのは1つあるだろうな

2012-11-16 12:21:59
外道父 | Noko @GedowFather

Hive, Impalaそれぞれ得意な集計関数とかあるのかな

2012-11-16 12:22:41
外道父 | Noko @GedowFather

痒いところに手が届く情報:impalaはORDER BY に LIMIT がついてないと怒られます ERROR: ORDER BY without LIMIT currently not supported

2012-11-16 12:24:21
Sadayuki Furuhashi @frsyuki

@GedowFather ファイル数よりノード数の方が多いんでしょうか…?

2012-11-16 12:25:06
tagomoris @tagomoris

だいぶ差が縮まってきた……w

2012-11-16 12:27:31
Sadayuki Furuhashi @frsyuki

@GedowFather Impala だと大きなテーブル同士の JOIN は厳しいようですが、普通の GROUP BY + 集約関数でも、GROUP BY で出てきたグループ数が多くなると遅くなりそうです。それでも LIMIT を付けると速いかもです。アーキテクチャ上は。

2012-11-16 12:27:48
外道父 | Noko @GedowFather

ブドウ糖が切れたのでチョコレートを補給

2012-11-16 12:29:04
Sadayuki Furuhashi @frsyuki

差が2倍くらいだと、チューニングパラメータを変えるくらいの違いしか無いと言う話に…。10倍くらい速くなると嬉しいな。数百GBの GROUP BY + 集約関数で。

2012-11-16 12:30:03
Sadayuki Furuhashi @frsyuki

(横から言うだけの簡単なお仕事

2012-11-16 12:30:50
外道父 | Noko @GedowFather

connectするimpaladとそれ以外のimpaladの呼び名が欲しい

2012-11-16 12:33:45
外道父 | Noko @GedowFather

アーキテクチャ資料を見てくる。名前ねーかな

2012-11-16 12:34:46
三上俊輔 @shun0102

@GedowFather データの形式はSequenceFileでしょうか?Textですか?

2012-11-16 12:35:32
外道父 | Noko @GedowFather

CPU情報:30秒間のimpalaクエリにおいて、(仮)中心impaladは単独プロセスでCPU1100%を観測。周辺impaladは3~4ノードで1~2秒間だけ500%

2012-11-16 12:37:20
外道父 | Noko @GedowFather

あぁ・・・ノード数の分母がないと参考にならないか まぁいいや

2012-11-16 12:37:39
Sho Shimauchi @shiumachi

打ち合わせ終わった。結局 Impala の件はその後どうなったんだ

2012-11-16 12:39:03
外道父 | Noko @GedowFather

中心impaladの重い処理はPlannerなのかCoordinatorなのか

2012-11-16 12:39:13
Sho Shimauchi @shiumachi

@GedowFather 1つのクエリでディスクあたりに読み込むデータサイズが増えると、その分ディスクIOの速度が支配的になっていくというのは考えられますね。環境の詳細や結果の詳細を見ていないんであくまで推測ですが

2012-11-16 12:43:14
三上俊輔 @shun0102

ImpalaはTrevniのファイルフォーマットが出てから試せばいいやと思ってる

2012-11-16 12:43:38
前へ 1 2 3 ・・ 6 次へ