豚野郎

HiveとPigの違いについてまとめました
1
wyukawa @wyukawa

へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。 / “Hadoop Pig の使いどころ - Tech-Sketch” http://t.co/1tZAbABV

2012-08-28 22:33:02
ひしだま @hishidama

HiveとPigは、SQLっぽい書き方をするか関数型っぽい書き方をするかの違いみたいに思ってる。

2012-08-28 22:38:35
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

こりゃーなんとも言えんぞw。そうじゃないケースもある。RT @wyukawa: へー、PigってHiveより遅いんだ。ただメタデータが要らないので導入しやすいよな。 / “Hadoop Pig の使いどころ - Tech-Sketch” http://t.co/2F8cNq0G

2012-08-28 23:44:18
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

Hadoopやってるやつほど、単純な速い遅いは意味がないし、何を条件にするかでまったく異なることを知っているような気がする。ま、なんでもそうだけど、特に象はそうだよ。・・・・だから扱いが難しいわけで。

2012-08-28 23:48:04
wyukawa @wyukawa

@okachimachiorz1 なるほど。まあ性能面はともかくとしてPigのほうが導入しやすいというのはあるようですね。なので運用補助ツール的に使うというのはあるのかなと。分析のフロントとしてはHiveのほうがいいんでしょうけど。

2012-08-28 23:49:13
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

@wyukawa まー今日も某所で話が出たんだけど、言語的な取り回しはPigの方がセンスがいいという印象もありまして。ま、SQLじゃなきゃいやーんな人がHiveじゃないかね的なお話も出たり。個人的には「ただの好みじゃね?」というのが私の意見ですw。

2012-08-28 23:51:47
tagomoris @tagomoris

豚野郎はRPCで実行する口がないのが全然ダメ

2012-08-28 23:54:59
チーフ データサイエンティスト@トレジャ @doryokujin

僕も先に出会っていれば豚野郎になっていたのかもしれないのよねん

2012-08-28 23:57:09
wyukawa @wyukawa

豚のほうがメタストアいらんしテーブルもあらかじめ作らなくていいしで始めやすい気はする。ただ分析のメインツールに使うかというと微妙な気がする。SQL知っていれば書けるHiveのほうが学習コスト低いだろうしね。なのでデバッグ用途というか補助ツールというかその辺りで使うのがいいのかなと

2012-08-28 23:57:43
wyukawa @wyukawa

バックエンドは豚でフロントエンドは蜂みたいな話を聞いた事あるけどそういう棲み分けなのかなあ

2012-08-29 00:00:19
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

ま、本気なBIなところは某所でよく見られるように結局裸MRになったりしているわけで。まーそーゆーことかと。わたしゃビッグデータは専門外なのでよくわかりませんが!

2012-08-29 00:01:08
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

ま、業務系処理屋的には、異常系フロー処理の取り回しがアレな段階でHiveはまったく箸にも棒にもかかりませんですぜ。頑張ればどうにかなるというレベルですらないし。・・・要は用途に応じて道具を使いなさいよ、と何がないからアレだという話だと、全てのツールは全部ゴミ以下ですわ。

2012-08-29 00:07:42
Kenichiro HAMANO @hamaken

今のところ、ニーズはHiveの方が上だけど、特性を生かした流れに書きやすいのはPigと感じている。どちらが性能がいいかは、もちろん一概には言えない。

2012-08-29 00:08:47
Kenichiro HAMANO @hamaken

HiveもMapReduceへ落とすところの最適化(RDBMSのオプティマイザ的な)が進むと、性能向上とともに、特性への意識が薄くてもよくなるかも。でも、ダメSQLならぬ、ダメHiveQLを書く人達が出てくるのは、なんか嫌だ。

2012-08-29 00:12:58
Kenichiro HAMANO @hamaken

データのエラーにマジメに対処しようとすると、(ちょっと前のバージョンでは)UDFで頑張るしかなかった ←これ、結構面倒 。 最新バージョンがどうかは見れていない...

2012-08-29 00:16:10
wyukawa @wyukawa

豚野郎という単語は聞いても蜂野郎という単語は聞かないな

2012-08-29 00:16:18
Sho Shimauchi @shiumachi

ようやく蜂豚論争の話を読んだ。そもそも件の性能評価、豚が最新版の10使ってるのに対して蜂が7なのは何か理由があるのだろうか。それに結局のところどういうMRフローにコンパイルするかの問題なのでexplain見せなきゃよくわからんし

2012-08-29 00:46:21
たむたむ🏫 @tamtam180

Rばりばりな人は豚さんのが使いやすいんでは。

2012-08-29 01:02:02
たむたむ🏫 @tamtam180

あと、最近の豚さんは改修されてるかもしれないけど、エラーログが・・ほんとに豚野郎だった(=x=)

2012-08-29 01:08:02