へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。 / “Hadoop Pig の使いどころ - Tech-Sketch” http://t.co/1tZAbABV
2012-08-28 22:33:02こりゃーなんとも言えんぞw。そうじゃないケースもある。RT @wyukawa: へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。 / “Hadoop Pig の使いどころ - Tech-Sketch” http://t.co/2F8cNq0G
2012-08-28 23:44:18Hadoopやってるやつほど、単純な速い遅いは意味がないし、何を条件にするかでまったく異なることを知っているような気がする。ま、なんでもそうだけど、特に象はそうだよ。・・・・だから扱いが難しいわけで。
2012-08-28 23:48:04@okachimachiorz1 なるほど。まあ性能面はともかくとしてPigのほうが導入しやすいというのはあるようですね。なので運用補助ツール的に使うというのはあるのかなと。分析のフロントとしてはHiveのほうがいいんでしょうけど。
2012-08-28 23:49:13@wyukawa まー今日も某所で話が出たんだけど、言語的な取り回しはPigの方がセンスがいいという印象もありまして。ま、SQLじゃなきゃいやーんな人がHiveじゃないかね的なお話も出たり。個人的には「ただの好みじゃね?」というのが私の意見ですw。
2012-08-28 23:51:47豚のほうがメタストアいらんしテーブルもあらかじめ作らなくていいしで始めやすい気はする。ただ分析のメインツールに使うかというと微妙な気がする。SQL知っていれば書けるHiveのほうが学習コスト低いだろうしね。なのでデバッグ用途というか補助ツールというかその辺りで使うのがいいのかなと
2012-08-28 23:57:43ま、本気なBIなところは某所でよく見られるように結局裸MRになったりしているわけで。まーそーゆーことかと。わたしゃビッグデータは専門外なのでよくわかりませんが!
2012-08-29 00:01:08ま、業務系処理屋的には、異常系フロー処理の取り回しがアレな段階でHiveはまったく箸にも棒にもかかりませんですぜ。頑張ればどうにかなるというレベルですらないし。・・・要は用途に応じて道具を使いなさいよ、と何がないからアレだという話だと、全てのツールは全部ゴミ以下ですわ。
2012-08-29 00:07:42今のところ、ニーズはHiveの方が上だけど、特性を生かした流れに書きやすいのはPigと感じている。どちらが性能がいいかは、もちろん一概には言えない。
2012-08-29 00:08:47HiveもMapReduceへ落とすところの最適化(RDBMSのオプティマイザ的な)が進むと、性能向上とともに、特性への意識が薄くてもよくなるかも。でも、ダメSQLならぬ、ダメHiveQLを書く人達が出てくるのは、なんか嫌だ。
2012-08-29 00:12:58データのエラーにマジメに対処しようとすると、(ちょっと前のバージョンでは)UDFで頑張るしかなかった ←これ、結構面倒 。 最新バージョンがどうかは見れていない...
2012-08-29 00:16:10ようやく蜂豚論争の話を読んだ。そもそも件の性能評価、豚が最新版の10使ってるのに対して蜂が7なのは何か理由があるのだろうか。それに結局のところどういうMRフローにコンパイルするかの問題なのでexplain見せなきゃよくわからんし
2012-08-29 00:46:21