MapReduceとコンパイラ、App Engine (4ページ目)

Suguru ARAKAWA @ashigeru

@marblejenka 機材よりも運用が…orz

2010-05-03 18:11:57

Suguru ARAKAWA @ashigeru

@okachimachiorz なんというか、高度に抽象化された弊害とでも言うべきなのか、とりあえず弊害と感じられるまではがんばりたいですw

2010-05-03 18:13:08

Kazunori Sato @kazunori_279

@ashigeru たしかHiveって宣言的なMR言語だったような。しかし単にshuffle生成するだけじゃなく、そもそもデータをどう配置するかも考慮が必要で難しそう

2010-05-03 18:14:13

Suguru ARAKAWA @ashigeru

@kazunori_279 はい。すべてのストレージのスペック、NICの遅延、配線遅延、ルータの遅延、パケットロス率、故障率、ほかにも全部入力できれば多少戦えますよｗ

2010-05-03 18:16:29

Kazunori Sato @kazunori_279

@ashigeru それは実測値でいいんじゃない？＞ノード間のコストつかHadoopだと物理ノード特定できるけど、Amazonとか #appengine のMRはむずいかな。

2010-05-03 18:18:23

Suguru ARAKAWA @ashigeru

@kazunori_279 ですね。そしてパラメータが多くなって計算が膨大になってきたら準最適解を求める方向に。新幹線もそうやって設計されてるようですしw

2010-05-03 18:19:04

Kazunori Sato @kazunori_279

@ashigeru MapReduce → VHDL → 新幹線 ←ｲﾏｺｺ... しかしそうなるどMRでは物理ノード間のコスト予測が重要で、 #appengine は不利なのかなぁ。。

2010-05-03 18:21:47

Suguru ARAKAWA @ashigeru

@kazunori_279 #appengine は一定の並列性を持ったWebリクエストって言う単位をすばやくさばくように設計されてると思います。あんまり計算用途に使い道が思いついてないです

2010-05-03 18:24:52

Yasuo Higa@ISID @yasuo_higa

Ikaiがindexの作成はMapReducesを使ってるといってますね http://bit.ly/b1PalW #appengine

2010-05-03 18:24:52

Kazunori Sato @kazunori_279

おぉ! これはたぶんC++の本物MRでしょうねぇ。。Ikaiさん結構リークしてくれるから嬉しいw RT @higayasuo: Ikaiがindexの作成はMapReducesを使ってるといってますね http://bit.ly/b1PalW #appengine

2010-05-03 18:26:59

marble @marblejenka

@ashigeru そこがどうにかなると面白いですね。今もtqがあるっちゃあるけど、計算って感じじゃないですもんね。

2010-05-03 18:28:56

Suguru ARAKAWA @ashigeru

@kazunori_279 ただ、細かいチューニングを人間がせざるを得ない設計ってのは、最適化側としては非常にやりづらい環境なので、逆に何も手を出せないような仕組みを提案してくるんじゃないのかなーとも思ったり #appengine

2010-05-03 18:28:56

Kazunori Sato @kazunori_279

@ashigeru ですね、もしTQでMRっぽい仕組み作っても、Hadoopにはかなわないかもしれませんね

2010-05-03 18:29:18

Suguru ARAKAWA @ashigeru

@marblejenka もしかするとあの環境って、一定の予測可能性というか計測能力を提供している関係でCPUががら空きなんじゃないかとも思ったり…。バックエンドでどうやってるのか非常に気になります

2010-05-03 18:30:58

Kazunori Sato @kazunori_279

@ashigeru 宣言的に書くと最適にMR処理してくれる。。 #appengine チームにはそこまでリソースないと思うw

2010-05-03 18:31:18

Suguru ARAKAWA @ashigeru

@kazunori_279 あまりfine-grained parallel computingな方向に進んでないので、バッチ処理としては十分かも、とは思ったりします＞MR/TQ

2010-05-03 18:33:13

Suguru ARAKAWA @ashigeru

@kazunori_279 や、 #appengine チームというか本家のほうにそういう仕組みがあるんじゃないですかね。それともMRの数がそこまで多くなければ一つ一つが職人芸って可能性はありますがw

2010-05-03 18:34:27

Kazunori Sato @kazunori_279

@ashigeru 本家が新サービスでローンチってのはあり得ますね。ただTechTalkでMapsとかIMEチームのMR事例聞くと、Sawallとか特別な仕組み使わずC++でがりがり書くってのが定番らしいです

2010-05-03 18:36:48

Shinpei Ohtani @shot6

@ashigeru @kazunori_279 #appengineのレイヤではなく、GFSとか下位レイヤで仕組みはあるともいます。Sawzallもあるのはそのためでは。

2010-05-03 18:36:56

Kazunori Sato @kazunori_279

@shot6 ですね。やっぱり下位レイヤの「本物」MRを触ってみたいですねぇ

2010-05-03 18:39:44

Suguru ARAKAWA @ashigeru

@shot6 なるほど。そこから1枚かぶせて#appengineでMap/Reduce関数作るくらいだったら現実的かもしれません

2010-05-03 18:42:09

Suguru ARAKAWA @ashigeru

@kazunori_279 本気でチューニングしようとすればそうなるでしょうね。ちょっとした使い捨てのMRとかないもんですかねぇｗ

2010-05-03 18:43:13

Shinpei Ohtani @shot6

@ashigeru @kazunori_279 GFS/Google MapReduceがHadoopの大元なのだから#appengineがAPI的に解放されれば出来ない話ではないのでは。しかしバッチプロセッシングだからなあ、それで嬉しいかどうか、ですね。

2010-05-03 18:43:50

Suguru ARAKAWA @ashigeru

@shot6 ユーザに解放するとなるとサンドボックスを敷かなきゃいけないのでちょっと難しいですね。ちなみに #appengine はデータストアに集計系の仕組みがないのでバッチ処理は非常に欲しいですw

2010-05-03 18:46:29

Kazunori Sato @kazunori_279

@shot6 それがですね、まあリリースされるかも分からないので不明ではありますが、どうも雲行き的にはTask Queueベースで実装された「MR的な何か」になりそうな気がします。。

2010-05-03 18:46:33

いま話題のタグ