- kazunori_279
- 2982
- 0
- 4
- 0
@ashigeru 1段と2段の2パターンでやってます~。2段の方が遅いのはなぜw。とか苦戦中。
2010-05-03 17:33:53@okachimachiorz 2段でも速くならない…と言うか逆ですかw そっちから何とかする方法を先に考えたほうがよさげですねぇ
2010-05-03 17:35:49@okachimachiorz @ashigeru 今度の座談会、私の持ち時間はぜひ @ashigeru さんを召還したいですが、どうでしょうか?
2010-05-03 17:37:34@marblejenka 論理的に「隣」って言うのをちゃんとモデリングして、それらを同じまたは近いマシン上に配置してMapで計算したいなーという感じ。ネットワークトポロジの世界です
2010-05-03 17:37:59ぶっちゃけshuffleの挙動がよくわからんので、shuffule~reduce完了までのトレースが苦労してます。荒技的に、その処理のチューニングは労多くして功少なしとして、Mapにどこまで処理をぶちこめるかが勝負って感じですが・・・まだまだ初心者モードですわ。
2010-05-03 17:39:23@ashigeru パフォーマンスを上げるっていうことと、再利用性を上げるってことが例によってトレードオフっぽいな~、ってところまでは体験中です~・・
2010-05-03 17:40:26@marblejenka そです。ネットワーク>ディスク>CPUの順に高いので、その順番に何とかしていかないと楽しくなれなさそうですね
2010-05-03 17:40:46@ashigeru でも、そのローカリティとデータの意味的な近さをいかにかっこよくトーラスなんちゃらで解くのかぜひ聞いてみたいなぁ~スライド5枚くらいでいいですよ
2010-05-03 17:40:50@kazunori_279 @ashigeru のご両人でよろしければ、その方向で調整しましょうか?
2010-05-03 17:41:24俺も聞きたいw。RT @kazunori_279: @ashigeru でも、そのローカリティとデータの意味的な近さをいかにかっこよくトーラスなんちゃらで解くのかぜひ聞いてみたいなぁ~スライド5枚くらいでいいですよ
2010-05-03 17:42:22@okachimachiorz 回は様子見な形でお願いします…がんばってスタートラインに立って次回からは全力で参戦したいと思います…(shuffleってのがあるんですね?というレベル)
2010-05-03 17:44:05@ashigeru メモリーとかCPU、I/Oを追っているのですが、なんでそうなるのぅ~~みたいな。多分reduceサイドのマージ係数とか絶対なんか違うw。それはわかるが、何がいいのかとw。
2010-05-03 17:45:01そういうローカリティを意識してどうデータを分散化させるかって問題、昔から超並列とかで成果とかあるんじゃないのかな。
2010-05-03 17:45:06@okachimachiorz でもMapの結果をプリフェッチする感じのReduceならありえるかもですね。単に遅延層が1枚増えた的な
2010-05-03 17:47:04@kazunori_279 sharedNothingはMapサイドはきれいに行くけど、reduceサイドが結構ポイントに見えて、sort&shuffleあたりにそういったノウハウを入れているように見えます。
2010-05-03 17:48:00@marblejenka Shuffleって名前的にはハッシュ関数を元に配置とスケジュールをいじれるとか、ですか?
2010-05-03 17:48:05@ashigeru その関数は自由にいじれる。デフォルトHashですけど、結構変える。スケジュールは設定ごにょごにょやれるようだが・・まだ勉強中。配置は意図的に変えますよw。
2010-05-03 17:50:18