- creationline
- 2329
- 4
- 1
- 20
昨日の「夏真っ盛り!Spark + Python + Data Science祭り」 #summerDS では分析ツールとしてPythonの人気が圧倒的に高く、ノートブックはJupyter推しでしたが今日の #sparkmeetup ではどうなんだろう?
2016-07-26 19:35:05databricks community edition良いな。カジュアルに試せそう。 #sparkmeetup
2016-07-26 19:35:07そういえばデータの永続化のレベルに昔はTachyonが入っていたのですが、2系では消えています。Sparkのオフヒープの仕組みの指定に置き換わっています。Experimentalですけど(重要)この辺もう少しコード追っておきたい。 #sparkmeetup
2016-07-26 19:37:51Spark利用の技術向上するためのCommunity Editionというクラウドサービスがあり databricks.com/blog/2016/02/1… #sparkmeetup
2016-07-26 19:38:01ドキュメンテーションと処理をひとつの仕組みで実現できる仕組み(ノートブック)は、試してみるとやめられなくなる。OSSだったらJupyterやZeppelinがSparkとの相性がよい。 #sparkmeetup
2016-07-26 19:42:35#sparkmeetup 石川さん: Databricks Cloud Community Edition 6GBまでのクラスタをタダで構築できる。
2016-07-26 19:49:50#sparkmeetup 石川さん: SparkR 本体に取り込まれたのは、Spark 1.4からです。基本的にはRの使い方に近い感じで APIを提供している。
2016-07-26 19:50:47例えば、入力データセットの調査をしているときにノートブックは相性いいと思っています。色々と統計とったり、エラーを見たりしたいので。 #sparkmeetup
2016-07-26 19:57:03個人的には、ノートブックはグラフもよい機能なんですが、実はドキュメント(=議論)、コード、結果を一体として証跡保存できる点がポイントと思っています。それが一致していることで証跡としての価値が高まる、と。 #sparkmeetup twitter.com/chezou/status/…
2016-07-26 20:02:53この報告会の報告内容って後から資料取得できるのかな。研究室休んで参加すべきイベントだアンテナ張り損ねてた… #sparkmeetup
2016-07-26 20:05:38あれ、GridSearchできないのかな。CrossValidatorとかあった気がするんだけどな #sparkmeetup
2016-07-26 20:07:55#sparkmeetup 石川さんに、今日の11:00am頃に登壇依頼したのに、素晴らしいデモを披露してくれて、リスペクト。 pic.twitter.com/bzVGCl6ZSb
2016-07-26 20:08:51#sparkmeetup 次は、NHNテコラス株式会社 データ研究室 佐藤 哲さんの「Spark MLlibを使ったアクセスパターン解析事例」です。
2016-07-26 20:18:50HTTPアクセスしてくるユーザの属性をSpark,HBase,MLlibを使って類似ユーザのクラスタリングをする #sparkmeetup
2016-07-26 20:19:57"時間、アクセス先のURI、ユーザーIDを使っている。時系列情報でクラスタリングしたいためアクセス先情報は符号化している" #sparkmeetup
2016-07-26 20:22:31符号間の類似度計算には、Normalized Compression Distance (NCD)を使っている #sparkmeetup
2016-07-26 20:24:08