Spark Summit2016報告会＆データ分析勉強会 (2ページ目)

そういえばデータの永続化のレベルに昔はTachyonが入っていたのですが、2系では消えています。Sparkのオフヒープの仕組みの指定に置き換わっています。Experimentalですけど（重要）この辺もう少しコード追っておきたい。 #sparkmeetup

2016-07-26 19:37:51

Junki Mano @ma91n

Spark利用の技術向上するためのCommunity Editionというクラウドサービスがあり databricks.com/blog/2016/02/1… #sparkmeetup

2016-07-26 19:38:01

ドキュメンテーションと処理をひとつの仕組みで実現できる仕組み（ノートブック）は、試してみるとやめられなくなる。OSSだったらJupyterやZeppelinがSparkとの相性がよい。 #sparkmeetup

2016-07-26 19:42:35

Zeppelinはzeppelin.apache.orgですね。 #sparkmeetup

2016-07-26 19:45:25

石川さん登壇～。 #sparkmeetup

2016-07-26 19:47:10

#sparkmeetup 次は、リクルートテクノロジーの石川さんです。.@yu-iskw

2016-07-26 19:48:58

#sparkmeetup 石川さん: Databricks Cloud Community Edition 6GBまでのクラスタをタダで構築できる。

2016-07-26 19:49:50

#sparkmeetup 石川さん: SparkR 本体に取り込まれたのは、Spark 1.4からです。基本的にはRの使い方に近い感じで APIを提供している。

2016-07-26 19:50:47

RのDataFrameがSparkRに透過的に使えるのは凄い #sparkmeetup

2016-07-26 19:52:09

SparkRでもpipe使えるんだろうか #sparkmeetup

2016-07-26 19:55:42

例えば、入力データセットの調査をしているときにノートブックは相性いいと思っています。色々と統計とったり、エラーを見たりしたいので。 #sparkmeetup

2016-07-26 19:57:03

リッチでGUIでグリグリできるグラフとコマンドベースで再現性の高い方どっちがいいんだろうなぁ #sparkmeetup

2016-07-26 19:58:54

個人的には、ノートブックはグラフもよい機能なんですが、実はドキュメント（＝議論）、コード、結果を一体として証跡保存できる点がポイントと思っています。それが一致していることで証跡としての価値が高まる、と。 #sparkmeetup twitter.com/chezou/status/…

2016-07-26 20:02:53

rasai @asai_desita

この報告会の報告内容って後から資料取得できるのかな。研究室休んで参加すべきイベントだアンテナ張り損ねてた… #sparkmeetup

2016-07-26 20:05:38

あれ、GridSearchできないのかな。CrossValidatorとかあった気がするんだけどな #sparkmeetup

2016-07-26 20:07:55

石川さんによるGLMをSparkRで動かしてみるデモ。分かりやすい。 #sparkmeetup

2016-07-26 20:08:26

#sparkmeetup 石川さんに、今日の11:00am頃に登壇依頼したのに、素晴らしいデモを披露してくれて、リスペクト。 pic.twitter.com/bzVGCl6ZSb

2016-07-26 20:08:51

拡大

アクセスパターン解析の話が始まりました。NHNテコラスの佐藤さん #sparkmeetup

2016-07-26 20:18:04

#sparkmeetup 次は、NHNテコラス株式会社データ研究室佐藤哲さんの「Spark MLlibを使ったアクセスパターン解析事例」です。

2016-07-26 20:18:50

HTTPアクセスしてくるユーザの属性をSpark,HBase,MLlibを使って類似ユーザのクラスタリングをする #sparkmeetup

2016-07-26 20:19:57

"時間、アクセス先のURI、ユーザーIDを使っている。時系列情報でクラスタリングしたいためアクセス先情報は符号化している" #sparkmeetup

2016-07-26 20:22:31

符号間の類似度計算には、Normalized Compression Distance (NCD)を使っている #sparkmeetup

2016-07-26 20:24:08