Spark Summit2016報告会&データ分析勉強会

2016年7月26日に開催された”Spark Summit2016報告会&データ分析勉強会”のまとめです。
1
Tatsuo Kawasαki @kernel023

昨日の「夏真っ盛り!Spark + Python + Data Science祭り」 #summerDS では分析ツールとしてPythonの人気が圧倒的に高く、ノートブックはJupyter推しでしたが今日の #sparkmeetup ではどうなんだろう?

2016-07-26 19:35:05
joker1007 (アルフォートおじさん) @joker1007

databricks community edition良いな。カジュアルに試せそう。 #sparkmeetup

2016-07-26 19:35:07
Masaru Dobashi @masaru_dobashi

そういえばデータの永続化のレベルに昔はTachyonが入っていたのですが、2系では消えています。Sparkのオフヒープの仕組みの指定に置き換わっています。Experimentalですけど(重要)この辺もう少しコード追っておきたい。 #sparkmeetup

2016-07-26 19:37:51
Junki Mano @ma91n

Spark利用の技術向上するためのCommunity Editionというクラウドサービスがあり databricks.com/blog/2016/02/1… #sparkmeetup

2016-07-26 19:38:01
Masaru Dobashi @masaru_dobashi

ドキュメンテーションと処理をひとつの仕組みで実現できる仕組み(ノートブック)は、試してみるとやめられなくなる。OSSだったらJupyterやZeppelinがSparkとの相性がよい。 #sparkmeetup

2016-07-26 19:42:35
Kimihiko Kitase @kkitase

#sparkmeetup 次は、リクルートテクノロジーの石川さんです。.@yu-iskw

2016-07-26 19:48:58
Kimihiko Kitase @kkitase

#sparkmeetup 石川さん: Databricks Cloud Community Edition 6GBまでのクラスタをタダで構築できる。

2016-07-26 19:49:50
Kimihiko Kitase @kkitase

#sparkmeetup 石川さん: SparkR 本体に取り込まれたのは、Spark 1.4からです。基本的にはRの使い方に近い感じで APIを提供している。

2016-07-26 19:50:47
Aki Ariga @chezou

RのDataFrameがSparkRに透過的に使えるのは凄い #sparkmeetup

2016-07-26 19:52:09
Aki Ariga @chezou

SparkRでもpipe使えるんだろうか #sparkmeetup

2016-07-26 19:55:42
Masaru Dobashi @masaru_dobashi

例えば、入力データセットの調査をしているときにノートブックは相性いいと思っています。色々と統計とったり、エラーを見たりしたいので。 #sparkmeetup

2016-07-26 19:57:03
Aki Ariga @chezou

リッチでGUIでグリグリできるグラフとコマンドベースで再現性の高い方どっちがいいんだろうなぁ #sparkmeetup

2016-07-26 19:58:54
Masaru Dobashi @masaru_dobashi

個人的には、ノートブックはグラフもよい機能なんですが、実はドキュメント(=議論)、コード、結果を一体として証跡保存できる点がポイントと思っています。それが一致していることで証跡としての価値が高まる、と。 #sparkmeetup twitter.com/chezou/status/…

2016-07-26 20:02:53
rasai @asai_desita

この報告会の報告内容って後から資料取得できるのかな。研究室休んで参加すべきイベントだアンテナ張り損ねてた… #sparkmeetup

2016-07-26 20:05:38
Aki Ariga @chezou

あれ、GridSearchできないのかな。CrossValidatorとかあった気がするんだけどな #sparkmeetup

2016-07-26 20:07:55
Masaru Dobashi @masaru_dobashi

石川さんによるGLMをSparkRで動かしてみるデモ。分かりやすい。 #sparkmeetup

2016-07-26 20:08:26
Kimihiko Kitase @kkitase

#sparkmeetup 石川さんに、今日の11:00am頃に登壇依頼したのに、素晴らしいデモを披露してくれて、リスペクト。 pic.twitter.com/bzVGCl6ZSb

2016-07-26 20:08:51
拡大
Masaru Dobashi @masaru_dobashi

アクセスパターン解析の話が始まりました。NHNテコラスの佐藤さん #sparkmeetup

2016-07-26 20:18:04
Kimihiko Kitase @kkitase

#sparkmeetup 次は、NHNテコラス株式会社 データ研究室 佐藤 哲さんの「Spark MLlibを使ったアクセスパターン解析事例」です。

2016-07-26 20:18:50
Aki Ariga @chezou

HTTPアクセスしてくるユーザの属性をSpark,HBase,MLlibを使って類似ユーザのクラスタリングをする #sparkmeetup

2016-07-26 20:19:57
Aki Ariga @chezou

"時間、アクセス先のURI、ユーザーIDを使っている。時系列情報でクラスタリングしたいためアクセス先情報は符号化している" #sparkmeetup

2016-07-26 20:22:31
Aki Ariga @chezou

符号間の類似度計算には、Normalized Compression Distance (NCD)を使っている #sparkmeetup

2016-07-26 20:24:08
Masaru Dobashi @masaru_dobashi

特徴を文字列として表して類似度を計算する。 #sparkmeetup

2016-07-26 20:24:44