@GedowFather 投げた結果を集約するからですかね。こちらも手が空いたら調べてみます(今日は無理そうですが)
2012-11-16 12:44:27@GedowFather 中間データをメモリに持つのが特長の一つなので、Hive だと複数のジョブステージになり、かつ中間データが多くなりそうな処理だと顕著に差が出そうな気がしますね
2012-11-16 12:46:51今回の環境でのフォーマット形式と圧縮にも興味ありますね RT @shiumachi: Trevni 対応するとさらに高速化するらしいからなー>Impala
2012-11-16 12:58:08@GedowFather なるほど、SeqenceFileの方がCountはメタデータだけ見てseekしていくみたいな最適化ができそうなので、実装による性能差が出そうと思って気になりました。
2012-11-16 13:05:09Hiveで3GBのデータ作ってimpalaでCOUNTし、その後データ追加して6GBにしてからimpalaでCOUNTしても同じ結果。refreshしてからだと正しいCOUNT結果になった
2012-11-16 13:05:18Hiveメタデータにディレクトリ内のファイルパスとかないよね・・・impaladさんが読み込んだファイルパス覚えちゃうの?
2012-11-16 13:05:52今だと connect host-of-impalad:21000 の分散選択、lvsとかhaproxyかませることになるのかな…それともhdfs-site.xmlから引っこ抜いて自前でランダム選択するか…うーむ
2012-11-16 13:10:51.@mazgi さんのコメント「ちゃんと着色しといた」にいいね!しました。 http://t.co/mid5wcUF
2012-11-16 13:15:16impalaのchef recipe書いてみた > "chef recipe for impala — Gist" http://t.co/b6RDoqoe
2012-11-16 13:17:04本番環境ではあるけども,色々リソース管理が出来ない現状,やっぱり色々小さい所からという感じか.実際ガシガシ使っているところで共存した場合どうなるか知りたいですね… #impala
2012-11-16 13:52:21