MapReduceとコンパイラ、App Engine (2ページ目)

御徒町@Serializable @okachimachiorz

@ashigeru 1段と2段の2パターンでやってます～。2段の方が遅いのはなぜｗ。とか苦戦中。

2010-05-03 17:33:53

Suguru ARAKAWA @ashigeru

@okachimachiorz 2段でも速くならない…と言うか逆ですかw そっちから何とかする方法を先に考えたほうがよさげですねぇ

2010-05-03 17:35:49

marble @marblejenka

しげる氏がなに言ってるかわかんなくなってきた。やっぱ人生勉強っすね。

2010-05-03 17:36:22

Kazunori Sato @kazunori_279

@okachimachiorz @ashigeru 今度の座談会、私の持ち時間はぜひ @ashigeru さんを召還したいですが、どうでしょうか？

2010-05-03 17:37:34

Suguru ARAKAWA @ashigeru

@marblejenka 論理的に｢隣｣って言うのをちゃんとモデリングして、それらを同じまたは近いマシン上に配置してMapで計算したいなーという感じ。ネットワークトポロジの世界です

2010-05-03 17:37:59

marble @marblejenka

データに分散配置はhadoop先生がどうにかしてくれてます！じゃ、だめなんだろうなぁとか。なんでもそうか。

2010-05-03 17:38:29

Suguru ARAKAWA @ashigeru

@kazunori_279 私まだ象本も半分たどり着いてないレベル…。家に実験環境が作れなくて苦戦してますw

2010-05-03 17:38:38

御徒町@Serializable @okachimachiorz

ぶっちゃけshuffleの挙動がよくわからんので、shuffule～reduce完了までのトレースが苦労してます。荒技的に、その処理のチューニングは労多くして功少なしとして、Mapにどこまで処理をぶちこめるかが勝負って感じですが・・・まだまだ初心者モードですわ。

2010-05-03 17:39:23

御徒町@Serializable @okachimachiorz

@ashigeru パフォーマンスを上げるっていうことと、再利用性を上げるってことが例によってトレードオフっぽいな～、ってところまでは体験中です～・・

2010-05-03 17:40:26

Suguru ARAKAWA @ashigeru

@marblejenka そです。ネットワーク＞ディスク＞CPUの順に高いので、その順番に何とかしていかないと楽しくなれなさそうですね

2010-05-03 17:40:46

Kazunori Sato @kazunori_279

@ashigeru でも、そのローカリティとデータの意味的な近さをいかにかっこよくトーラスなんちゃらで解くのかぜひ聞いてみたいなぁ～スライド5枚くらいでいいですよ

2010-05-03 17:40:50

御徒町@Serializable @okachimachiorz

@kazunori_279 @ashigeru のご両人でよろしければ、その方向で調整しましょうか？

2010-05-03 17:41:24

御徒町@Serializable @okachimachiorz

俺も聞きたいｗ。RT @kazunori_279: @ashigeru でも、そのローカリティとデータの意味的な近さをいかにかっこよくトーラスなんちゃらで解くのかぜひ聞いてみたいなぁ～スライド5枚くらいでいいですよ

2010-05-03 17:42:22

marble @marblejenka

@ashigeru なるほど。道は長そうです。ネットワークにがてなんですよねー。がんばります。

2010-05-03 17:44:03

Suguru ARAKAWA @ashigeru

@okachimachiorz 回は様子見な形でお願いします…がんばってスタートラインに立って次回からは全力で参戦したいと思います…(shuffleってのがあるんですね？というレベル)

2010-05-03 17:44:05

御徒町@Serializable @okachimachiorz

@ashigeru メモリーとかCPU、I/Oを追っているのですが、なんでそうなるのぅ～～みたいな。多分reduceサイドのマージ係数とか絶対なんか違うｗ。それはわかるが、何がいいのかとｗ。

2010-05-03 17:45:01

Kazunori Sato @kazunori_279

そういうローカリティを意識してどうデータを分散化させるかって問題、昔から超並列とかで成果とかあるんじゃないのかな。

2010-05-03 17:45:06

marble @marblejenka

@ashigeru お、シャッフルを知らないとは意外！とここぞとばかりに突っ込んでみる

2010-05-03 17:45:50

Suguru ARAKAWA @ashigeru

@okachimachiorz でもMapの結果をプリフェッチする感じのReduceならありえるかもですね。単に遅延層が1枚増えた的な

2010-05-03 17:47:04

Suguru ARAKAWA @ashigeru

@kazunori_279 ヒント：ヒューリスティクス

2010-05-03 17:47:17

御徒町@Serializable @okachimachiorz

@kazunori_279 sharedNothingはMapサイドはきれいに行くけど、reduceサイドが結構ポイントに見えて、sort&shuffleあたりにそういったノウハウを入れているように見えます。

2010-05-03 17:48:00

Suguru ARAKAWA @ashigeru

@marblejenka Shuffleって名前的にはハッシュ関数を元に配置とスケジュールをいじれるとか、ですか？

2010-05-03 17:48:05

Kazunori Sato @kazunori_279

@ashigeru ヒントの幅が広すぎます＞＜

2010-05-03 17:48:46

御徒町@Serializable @okachimachiorz

@ashigeru その関数は自由にいじれる。デフォルトHashですけど、結構変える。スケジュールは設定ごにょごにょやれるようだが・・まだ勉強中。配置は意図的に変えますよｗ。

2010-05-03 17:50:18

Suguru ARAKAWA @ashigeru

そーか、ディスパッチする仕組みがないとReduceの結合則によっては何もできんよね

2010-05-03 17:50:54

いま話題のタグ