Tokyo Impala Meetup #impalajp のまとめ
次は @tosugiya 氏の「Impalaチューニングポイント/ベストプラクティス」 #impalajp
2014-10-31 19:43:51Impalaだとリソース制御周りが結構鬼門だった.デーモン内で色々と制御しようとしているのだけど,ループでチェックしている部分とかは,次のチェックの前にCPU使用率100%とかでサチるようになると,もうどうにもならなかった #impalajp
2014-10-31 19:43:59データ依存やクエリ依存で落ちますか。デーモン自体は安定しているようですが、事前のデータパターンの検証は十分にする必要がありそうですね。 #impalajp
2014-10-31 19:44:03さっき @sudabon さんが話してたスレッドってこれかな? groups.google.com/a/cloudera.org… #impalajp
2014-10-31 19:46:151回目はクエリ実行は遅い。2回目以降はOSのバッファキャッシュを活用するため非常に早くなる・・はわかりますが、30倍も差がでますか。 #impalajp
2014-10-31 19:56:18遅い原因は同一ブロックへのアクセス集中と。ImpalaはHDFSのレプリケーションにあわせた読み込み配分はしないわけですか。 #impalajp
2014-10-31 19:58:1330倍の差は別におかしくないというか,基本的にMPPクエリエンジンの場合はネットワークやIOがボトルネックになるのが多いので,キャッシュに載っていればその分かなり速くなるはず #impalajp
2014-10-31 19:58:561回目のクエリが遅いのはメタストアへのアクセスの影響もある?2回目以降はキャッシュするし #impalajp
2014-10-31 20:00:33レプリカのブロックリストの先頭を捕まえに行くので「完全に同一なクエリを」同時に叩き込んだときはアクセス競合が発生するので注意 #impalajp
2014-10-31 20:00:54@d1ce_ #impalajp そのようですね。アクセスするデータや実行するクエリによって大きく変動するので、そのあたりは検証した上で組む必要がありそうですね。
2014-10-31 20:02:45Oozie Impala Action の JIRA (オープン中) issues.apache.org/jira/browse/OO… #impalajp
2014-10-31 20:03:21処理時間のイメージ Impala: 数秒〜数10秒 MapReduce: 数分〜数時間 #impalajp
2014-10-31 20:04:47ある程度ユーザがリクエスト投げてから待ってもいいサービスが適すると。あと、ある程度アクセスする先のデータが絞られないと、毎回OSのバッファキャッシュの中身が入れ替わるのであまり早くはできませんか。 #impalajp
2014-10-31 20:06:23クエリによってはHDFS cachingとImpalaを組み合わせると効果があるかも cloudera.com/content/cloude… #impalajp
2014-10-31 20:09:25