Tokyo Impala Meetup #impalajp のまとめ

2014/10/31のハロウィンの日に実施された「Tokyo Impala Meetup: Impalaについて話す会」のツイート (#impala)のまとめです。自由に編集してください。 http://connpass.com/event/9031/
1
前へ 1 2 3 ・・ 8 次へ
Kiyoshi Mizumaru @kmizumar

こういう生々しい話は大変におもしろい #impalajp

2014-10-31 19:43:10
Tatsuo Kawasαki @kernel023

次は @tosugiya 氏の「Impalaチューニングポイント/ベストプラクティス」 #impalajp

2014-10-31 19:43:51
SKS rep @repeatedly

Impalaだとリソース制御周りが結構鬼門だった.デーモン内で色々と制御しようとしているのだけど,ループでチェックしている部分とかは,次のチェックの前にCPU使用率100%とかでサチるようになると,もうどうにもならなかった #impalajp

2014-10-31 19:43:59
Sotaro Kimura @kimutansk

データ依存やクエリ依存で落ちますか。デーモン自体は安定しているようですが、事前のデータパターンの検証は十分にする必要がありそうですね。 #impalajp

2014-10-31 19:44:03
Sho Shimauchi @shiumachi

さっき @sudabon さんが話してたスレッドってこれかな? groups.google.com/a/cloudera.org… #impalajp

2014-10-31 19:46:15
Tatsuo Kawasαki @kernel023

4300億行、圧縮で4500GBのデータ #impalajp

2014-10-31 19:47:06
Kiyoshi Mizumaru @kmizumar

boost_regexpで落ちてたりしたら相当めんどくさそうではある #impalajp

2014-10-31 19:47:09
Tatsuo Kawasαki @kernel023

30ノード (6corex2, 64GB, 3TBx4) で検証 #impalajp

2014-10-31 19:47:52
Sotaro Kimura @kimutansk

1回目はクエリ実行は遅い。2回目以降はOSのバッファキャッシュを活用するため非常に早くなる・・はわかりますが、30倍も差がでますか。 #impalajp

2014-10-31 19:56:18
Sotaro Kimura @kimutansk

遅い原因は同一ブロックへのアクセス集中と。ImpalaはHDFSのレプリケーションにあわせた読み込み配分はしないわけですか。 #impalajp

2014-10-31 19:58:13
SKS rep @repeatedly

30倍の差は別におかしくないというか,基本的にMPPクエリエンジンの場合はネットワークやIOがボトルネックになるのが多いので,キャッシュに載っていればその分かなり速くなるはず #impalajp

2014-10-31 19:58:56
Daisuke Kobayashi @d1ce_

@kimutansk 全く同じクエリを並列実行した場合はそうなってしまいますね #impalajp

2014-10-31 20:00:04
Tatsuo Kawasαki @kernel023

1回目のクエリが遅いのはメタストアへのアクセスの影響もある?2回目以降はキャッシュするし #impalajp

2014-10-31 20:00:33
Kiyoshi Mizumaru @kmizumar

レプリカのブロックリストの先頭を捕まえに行くので「完全に同一なクエリを」同時に叩き込んだときはアクセス競合が発生するので注意 #impalajp

2014-10-31 20:00:54
Sotaro Kimura @kimutansk

@d1ce_ #impalajp そのようですね。アクセスするデータや実行するクエリによって大きく変動するので、そのあたりは検証した上で組む必要がありそうですね。

2014-10-31 20:02:45
リンク issues.apache.org [OOZIE-1591] Impala Action - ASF JIRA
Kiyoshi Mizumaru @kmizumar

処理時間のイメージ Impala: 数秒〜数10秒 MapReduce: 数分〜数時間 #impalajp

2014-10-31 20:04:47
Sotaro Kimura @kimutansk

ある程度ユーザがリクエスト投げてから待ってもいいサービスが適すると。あと、ある程度アクセスする先のデータが絞られないと、毎回OSのバッファキャッシュの中身が入れ替わるのであまり早くはできませんか。 #impalajp

2014-10-31 20:06:23
Kiyoshi Mizumaru @kmizumar

微妙にClouderaさんが推奨しないImpala+HBase #impalajp

2014-10-31 20:06:31
Tatsuo Kawasαki @kernel023

クエリによってはHDFS cachingとImpalaを組み合わせると効果があるかも cloudera.com/content/cloude… #impalajp

2014-10-31 20:09:25
Kiyoshi Mizumaru @kmizumar

USERDIVEによるImpala導入へのミチ #impalajp

2014-10-31 20:10:14
Tatsuo Kawasαki @kernel023

次は @kuni_nakaji さんの「USERDIVEのimpala導入へのミチ」 #impalajp

2014-10-31 20:11:09
前へ 1 2 3 ・・ 8 次へ