#yjdsw3 Impalaはレイテンシは優れていたが、スケーラビリティに課題があり、Hive on Tezを導入
2015-11-24 19:22:26Impala のスケーラビリティについては、こちらの記事を参照した上で是非他の方にもきっちり検証していただいて、白黒はっきりつけていただきたいものですね cloudera.co.jp/blog/how-impal… twitter.com/kimutansk/stat…
2015-11-24 20:12:44#yjdsw3 Kafkaをパイプラインとして使うのはわかりましたが、「Kafkaに投入するデータフロー」はどうやって作っているんでしょうね。 Hortonworksと組んでるなら、DataFlowのプラットフォームも使っているんでしょうか。
2015-11-24 19:59:17@shiumachi そうですね。多分使っているデータ構成やモデルやクエリ、アクセスするデータやハードなどで相当異なるはずなのですが、そのあたりを変動させて、その上で同条件で複数ケース試さないと結局のところはわからない・・・
2015-11-24 20:15:31@oza_x86 @kimutansk 速い速くないの不毛な言い争いしたくないのでちゃんと同一環境で第三者に検証してほしいと切実に思いますね
2015-11-24 20:19:08@oza_x86 @shiumachi そうですね。そのあたり、第3者がやってみないとどうしても正面からの戦いにならない。 ハード的な最適化は明らかにImpalaに軍配が上がるはずなので、どんな要素で今回の結果になったかは気になるところです。
2015-11-24 20:20:32@shiumachi 再現はできますね。あとは使う側のニーズがそのモデルにあっているか、でしょうか。 Yahooさんでの環境ではそうなった、という一例でしかないですので、今日のは
2015-11-24 20:19:14Impalaは1時間2500クエリからノード数でスケールしなくなって、Hive on Tezを検証中 #yjdsw3
2015-11-24 19:22:28これまで yahoo japan はクローズドなソフトウェアを内製してきたが、google と対等するには厳しいという判断もあり oss を活用し始めたみたいなくだりらしい #yjdsw3
2015-11-24 19:31:55