MapReduceとコンパイラ、App Engine

MapReduceとコンパイラ、App Engine
1
前へ 1 2 ・・ 5 次へ
御徒町@Serializable @okachimachiorz

@ashigeru 1段と2段の2パターンでやってます~。2段の方が遅いのはなぜw。とか苦戦中。

2010-05-03 17:33:53
Suguru ARAKAWA @ashigeru

@okachimachiorz 2段でも速くならない…と言うか逆ですかw そっちから何とかする方法を先に考えたほうがよさげですねぇ

2010-05-03 17:35:49
marble @marblejenka

しげる氏がなに言ってるかわかんなくなってきた。やっぱ人生勉強っすね。

2010-05-03 17:36:22
Kazunori Sato @kazunori_279

@okachimachiorz @ashigeru 今度の座談会、私の持ち時間はぜひ @ashigeru さんを召還したいですが、どうでしょうか?

2010-05-03 17:37:34
Suguru ARAKAWA @ashigeru

@marblejenka 論理的に「隣」って言うのをちゃんとモデリングして、それらを同じまたは近いマシン上に配置してMapで計算したいなーという感じ。ネットワークトポロジの世界です

2010-05-03 17:37:59
marble @marblejenka

データに分散配置はhadoop先生がどうにかしてくれてます!じゃ、だめなんだろうなぁとか。なんでもそうか。

2010-05-03 17:38:29
Suguru ARAKAWA @ashigeru

@kazunori_279 私まだ象本も半分たどり着いてないレベル…。家に実験環境が作れなくて苦戦してますw

2010-05-03 17:38:38
御徒町@Serializable @okachimachiorz

ぶっちゃけshuffleの挙動がよくわからんので、shuffule~reduce完了までのトレースが苦労してます。荒技的に、その処理のチューニングは労多くして功少なしとして、Mapにどこまで処理をぶちこめるかが勝負って感じですが・・・まだまだ初心者モードですわ。

2010-05-03 17:39:23
御徒町@Serializable @okachimachiorz

@ashigeru パフォーマンスを上げるっていうことと、再利用性を上げるってことが例によってトレードオフっぽいな~、ってところまでは体験中です~・・

2010-05-03 17:40:26
Suguru ARAKAWA @ashigeru

@marblejenka そです。ネットワーク>ディスク>CPUの順に高いので、その順番に何とかしていかないと楽しくなれなさそうですね

2010-05-03 17:40:46
Kazunori Sato @kazunori_279

@ashigeru でも、そのローカリティとデータの意味的な近さをいかにかっこよくトーラスなんちゃらで解くのかぜひ聞いてみたいなぁ~スライド5枚くらいでいいですよ

2010-05-03 17:40:50
御徒町@Serializable @okachimachiorz

@kazunori_279 @ashigeru のご両人でよろしければ、その方向で調整しましょうか?

2010-05-03 17:41:24
御徒町@Serializable @okachimachiorz

俺も聞きたいw。RT @kazunori_279: @ashigeru でも、そのローカリティとデータの意味的な近さをいかにかっこよくトーラスなんちゃらで解くのかぜひ聞いてみたいなぁ~スライド5枚くらいでいいですよ

2010-05-03 17:42:22
marble @marblejenka

@ashigeru なるほど。道は長そうです。ネットワークにがてなんですよねー。がんばります。

2010-05-03 17:44:03
Suguru ARAKAWA @ashigeru

@okachimachiorz 回は様子見な形でお願いします…がんばってスタートラインに立って次回からは全力で参戦したいと思います…(shuffleってのがあるんですね?というレベル)

2010-05-03 17:44:05
御徒町@Serializable @okachimachiorz

@ashigeru メモリーとかCPU、I/Oを追っているのですが、なんでそうなるのぅ~~みたいな。多分reduceサイドのマージ係数とか絶対なんか違うw。それはわかるが、何がいいのかとw。

2010-05-03 17:45:01
Kazunori Sato @kazunori_279

そういうローカリティを意識してどうデータを分散化させるかって問題、昔から超並列とかで成果とかあるんじゃないのかな。

2010-05-03 17:45:06
marble @marblejenka

@ashigeru お、シャッフルを知らないとは意外!とここぞとばかりに突っ込んでみる

2010-05-03 17:45:50
Suguru ARAKAWA @ashigeru

@okachimachiorz でもMapの結果をプリフェッチする感じのReduceならありえるかもですね。単に遅延層が1枚増えた的な

2010-05-03 17:47:04
Suguru ARAKAWA @ashigeru

@kazunori_279 ヒント:ヒューリスティクス

2010-05-03 17:47:17
御徒町@Serializable @okachimachiorz

@kazunori_279 sharedNothingはMapサイドはきれいに行くけど、reduceサイドが結構ポイントに見えて、sort&shuffleあたりにそういったノウハウを入れているように見えます。

2010-05-03 17:48:00
Suguru ARAKAWA @ashigeru

@marblejenka Shuffleって名前的にはハッシュ関数を元に配置とスケジュールをいじれるとか、ですか?

2010-05-03 17:48:05
Kazunori Sato @kazunori_279

@ashigeru ヒントの幅が広すぎます><

2010-05-03 17:48:46
御徒町@Serializable @okachimachiorz

@ashigeru その関数は自由にいじれる。デフォルトHashですけど、結構変える。スケジュールは設定ごにょごにょやれるようだが・・まだ勉強中。配置は意図的に変えますよw。

2010-05-03 17:50:18
Suguru ARAKAWA @ashigeru

そーか、ディスパッチする仕組みがないとReduceの結合則によっては何もできんよね

2010-05-03 17:50:54
前へ 1 2 ・・ 5 次へ