Jupyterからラクラク操作 "Pythonで入門するApache Spark" #pyconjp #pyconjp_204

Pythonで入門するApache Spark @__Attsun__ Tatsuya Atsumi https://pycon.jp/2016/ja/schedule/presentation/37/ 現在、世界的に普及が進んでいる大規模分散処理フレームワークのApache Sparkについて、その基礎及び、Python APIを通じた各種ライブラリの使い方について、Sparkについて触れた事がない方でもわかるように基本から解説します。 Sparkは集計処理のような従来の操作のほか、機械学習のような複雑なワークロードにも対応しているため、様々な大規模分散処理を簡単に実装することが可能になります。
1
あつみ @__Attsun__

Data Engineer @ Ubie, inc. (Product Platform) 。EX Simplex/Kizasi/BrainPad ユビーAI受診相談(https://t.co/mWjPBA0KIQ), US https://t.co/nKAiBfkoMo 小田原

https://t.co/mnu4dinsaP

あつみ @__Attsun__

「Pythonで入門するApache Spark」の資料とJupyterコードアップしました。Jupyterコードはたまにリロードしないと見れないことあります slideshare.net/tatsuyaatsumi/… github.com/Attsun1031/pyc… #pyconjp

2016-09-22 15:48:32
リンク GitHub Attsun1031/pycon2016 pycon2016 - Pycon2016

かしゅー @kashew_nuts

Apache Sparkのとこ超満員だった。 #pyconjp

2016-09-22 14:12:56
にんにん @ninnin_py

次は「Pythonで入門するApache Spark」 #pyconjp #pyconjp_204

2016-09-22 14:14:02
京極 @kyogoku

続いて『Pythonで入門するApache Spark』 #pyconjp

2016-09-22 14:23:35
ぎのしん @ginoshinkuu

MRは中間データを作るのでSparkと比べると遅いらしい #pyconjp_204

2016-09-22 14:15:23
ぎのしん @ginoshinkuu

先月2.0.0がリリースされたのか #pyconjp_204

2016-09-22 14:18:30
まーや(Maaya) @maaya8585

JupyterでSparkと言う新しい発表形式を見てる。素晴らし。 #pyconjp #pyconjp_204

2016-09-22 14:22:37
京極 @kyogoku

Jupyter NotebookからもSparkがかんたんに操作できる。おもったより簡単… #pyconjp #pyconjp_204

2016-09-22 14:24:23
ぎのしん @ginoshinkuu

JupyterでSparkを使うのは一般的なのだろうか?初めて見たかも #pyconjp_204

2016-09-22 14:24:53
どん @dondokono

jupyterに慣れてるんならApache Zeppelinはいらない子なんです?どういう違いがあるんだろぅ #pyconjp_204

2016-09-22 14:26:43
ぎのしん @ginoshinkuu

Spark SQLはPandasのデータフレームのようなもの #pyconjp_204

2016-09-22 14:27:53
ぎのしん @ginoshinkuu

RDDに比べるとDataFrameの方が可読性が高くて直感的 #pyconjp_204

2016-09-22 14:32:06