夏真っ盛り!Spark + Python + Data Science祭り まとめ #summerDS
2016/07/25 DMM.comラボ様にて開催したイベントのまとめです。
イベントページ: http://connpass.com/event/34680/
しばたこ
@uryyyyyyy
Sparkのチューニング。ボトルネックの特定。データの偏り解消。リソースの調整。詳しくは別資料(これかなslideshare.net/knagato/hive-o…) #summerds
2016-07-25 20:02:48
tomomoto
@tomomoto_LV3
Sparkのデータの偏りを防ぐことで、リソースをきちんと使いきれるようになる。データの偏りを生み出すのはロングテールの構造。 #summerDS
2016-07-25 20:04:05
しばたこ
@uryyyyyyy
データの偏りの解消について。データはヘビーユーザー、人気商品でものすごく偏りが出る。データサイエンティスト入門で読んだやつだ #summerds
2016-07-25 20:04:49
ucchi
@naotaka1128
データの偏り(skewed data)の解消によりジョブの実行時間が数十倍になることも。データの偏りがボトルネックの場合はリソース増強は効果薄い。詳細はスライドシェアみてね、と。 #summerDS
2016-07-25 20:06:13
ucchi
@naotaka1128
DMMは行動ログを考慮に入れたレコメンドしてない。今後の展望には入ってる。 これは意外だ。PV多すぎると使えないのかなぁ。 #summerDS
2016-07-25 20:07:46
𠮷田勇太 / ysdyt
@yutatatatata
開催直前に繰り上がり当選してるのに今気づいた...すごく聞きたかったのに無念...|夏真っ盛り!Spark + Python + Data Science祭り connpass.com/event/34680/ #summerDS
2016-07-25 20:09:55
Sho Shimauchi
@shiumachi
google dataproc に Spark ジョブ投げまくるとtmpがjarで溢れて死んで、クラスタ再構築するしかなくなるのか #summerDS
2016-07-25 20:10:51
soonraah
@soonraah
アイテム数が小さければ、アイテムマトリクスを Map とかにして broadcast すると推薦が速くなったることがありますね。 #summerDS
2016-07-25 20:15:34