- kazunori_279
- 2991
- 0
- 4
- 0
@okachimachiorz なんというか、高度に抽象化された弊害とでも言うべきなのか、とりあえず弊害と感じられるまではがんばりたいですw
2010-05-03 18:13:08@ashigeru たしかHiveって宣言的なMR言語だったような。しかし単にshuffle生成するだけじゃなく、そもそもデータをどう配置するかも考慮が必要で難しそう
2010-05-03 18:14:13@kazunori_279 はい。すべてのストレージのスペック、NICの遅延、配線遅延、ルータの遅延、パケットロス率、故障率、ほかにも全部入力できれば多少戦えますよw
2010-05-03 18:16:29@ashigeru それは実測値でいいんじゃない?>ノード間のコスト つかHadoopだと物理ノード特定できるけど、Amazonとか #appengine のMRはむずいかな。
2010-05-03 18:18:23@kazunori_279 ですね。そしてパラメータが多くなって計算が膨大になってきたら準最適解を求める方向に。新幹線もそうやって設計されてるようですしw
2010-05-03 18:19:04@ashigeru MapReduce → VHDL → 新幹線 ←イマココ... しかしそうなるどMRでは物理ノード間のコスト予測が重要で、 #appengine は不利なのかなぁ。。
2010-05-03 18:21:47@kazunori_279 #appengine は一定の並列性を持ったWebリクエストって言う単位をすばやくさばくように設計されてると思います。あんまり計算用途に使い道が思いついてないです
2010-05-03 18:24:52Ikaiがindexの作成はMapReducesを使ってるといってますね http://bit.ly/b1PalW #appengine
2010-05-03 18:24:52おぉ! これはたぶんC++の本物MRでしょうねぇ。。Ikaiさん結構リークしてくれるから嬉しいw RT @higayasuo: Ikaiがindexの作成はMapReducesを使ってるといってますね http://bit.ly/b1PalW #appengine
2010-05-03 18:26:59@kazunori_279 ただ、細かいチューニングを人間がせざるを得ない設計ってのは、最適化側としては非常にやりづらい環境なので、逆に何も手を出せないような仕組みを提案してくるんじゃないのかなーとも思ったり #appengine
2010-05-03 18:28:56@ashigeru ですね、もしTQでMRっぽい仕組み作っても、Hadoopにはかなわないかもしれませんね
2010-05-03 18:29:18@marblejenka もしかするとあの環境って、一定の予測可能性というか計測能力を提供している関係でCPUががら空きなんじゃないかとも思ったり…。バックエンドでどうやってるのか非常に気になります
2010-05-03 18:30:58@ashigeru 宣言的に書くと最適にMR処理してくれる。。 #appengine チームにはそこまでリソースないと思うw
2010-05-03 18:31:18@kazunori_279 あまりfine-grained parallel computingな方向に進んでないので、バッチ処理としては十分かも、とは思ったりします>MR/TQ
2010-05-03 18:33:13@kazunori_279 や、 #appengine チームというか本家のほうにそういう仕組みがあるんじゃないですかね。それともMRの数がそこまで多くなければ一つ一つが職人芸って可能性はありますがw
2010-05-03 18:34:27@ashigeru 本家が新サービスでローンチってのはあり得ますね。ただTechTalkでMapsとかIMEチームのMR事例聞くと、Sawallとか特別な仕組み使わずC++でがりがり書くってのが定番らしいです
2010-05-03 18:36:48@ashigeru @kazunori_279 #appengineのレイヤではなく、GFSとか下位レイヤで仕組みはあるともいます。Sawzallもあるのはそのためでは。
2010-05-03 18:36:56@shot6 なるほど。そこから1枚かぶせて#appengineでMap/Reduce関数作るくらいだったら現実的かもしれません
2010-05-03 18:42:09@kazunori_279 本気でチューニングしようとすればそうなるでしょうね。ちょっとした使い捨てのMRとかないもんですかねぇw
2010-05-03 18:43:13@ashigeru @kazunori_279 GFS/Google MapReduceがHadoopの大元なのだから#appengineがAPI的に解放されれば出来ない話ではないのでは。しかしバッチプロセッシングだからなあ、それで嬉しいかどうか、ですね。
2010-05-03 18:43:50@shot6 ユーザに解放するとなるとサンドボックスを敷かなきゃいけないのでちょっと難しいですね。ちなみに #appengine はデータストアに集計系の仕組みがないのでバッチ処理は非常に欲しいですw
2010-05-03 18:46:29@shot6 それがですね、まあリリースされるかも分からないので不明ではありますが、どうも雲行き的にはTask Queueベースで実装された「MR的な何か」になりそうな気がします。。
2010-05-03 18:46:33