Spark Casual Talk #1 まとめ #spark_casual

Spark Casual Talk #1 のまとめです。 Sparkの勉強会です!
8
前へ 1 2 3 ・・ 8 次へ
くろさん @kuro_m88

「サイバーエージェントではSparkを分析基盤として使っていたり、一部Streamingを使っていたりする。規模としてはまだアドホック的に使う程度。」 #spark_casual

2015-06-23 19:58:51
tomo🐧@learning @cocoatomo

#spark_casual 「CA さんは, どのくらいの規模で使っているのか?」「それぞれのチーム, プロジェクトで使っている. 規模はそれほどではない. 気軽な感じで使っている. 使っていても変には思わない雰囲気.」

2015-06-23 19:59:28
SKS/ファントムの申し子 @repeatedly

RDD,今後は表部隊から消えて行くのかな…? #spark_casual

2015-06-23 20:00:01
Toru Shimogaki @shimtoru

SSDとか10Gbpsを積むとCPUネックになる傾向が強くなる、とブログに書いてあった by @raspberry1123 #spark_casual

2015-06-23 20:00:14
x1 @iyunoriue

土橋さんと猿田さんの発表はじまった! #spark_casual pic.twitter.com/dKHgEHJqnA

2015-06-23 20:02:06
拡大
tomo🐧@learning @cocoatomo

#spark_casual Spark のこれまで, と, Spark のこれから

2015-06-23 20:02:36
SKS/ファントムの申し子 @repeatedly

Spark,黄色い生き物のロゴがないのがネック #spark_casual

2015-06-23 20:03:25
kbhrs @kbhrs_jp

Sparkもunsafe使うのね。 java パフォーマンスだしたい人はみんな使うのね。 Embulk も使っていると言っていたし、最近、もう一つぐらい「使っているよ」の話を聞いたが失念。 #spark_casual

2015-06-23 20:04:02
x1 @iyunoriue

Spark1.3からStreamingのExactly-Onceが保証されるようになった。 #spark_casual

2015-06-23 20:08:55
Aki Ariga @chezou

Pipeline APIはscikit-learnからの輸入なのか #spark_casual

2015-06-23 20:09:55
Toru Shimogaki @shimtoru

Spark 1.3までのトピック→ Kafkaとの連携強化(Spark Streaming), Pipeline API(MLLib), DataFrame API(Spark SQL) #spark_casual

2015-06-23 20:13:17
Yuta Okamoto @okapies

DataFrame API の場合は、Python は(Scala で書いた場合と同様に)単に DSL として扱われるってことかな。 #spark_casual

2015-06-23 20:13:40
tomo🐧@learning @cocoatomo

#spark_casual 「Python から RDD API を使うと, JVM 上で実行されるときに UDF を実行するために Python プロセスが起動する. それも Scala に比べて遅い理由なんでは?」 そりゃメモリ確保とか初期化の部分とかあるし.

2015-06-23 20:14:13
Aki Ariga @chezou

SparkR変態すぎる。Rで書いてScalaで書くのに近い速度が出るのか… #spark_casual

2015-06-23 20:14:47
x1 @iyunoriue

Spark1.4でSparkStreamingの統計情報が可視化されるようになった!これはすごい! #spark_casual

2015-06-23 20:15:02
x1 @iyunoriue

Spark1.4のRDD変換過程の可視化もすごいよね。驚いた機能の一つ。 #spark_casual

2015-06-23 20:15:47
Toru Shimogaki @shimtoru

このタイムラインの可視化が @raspberry1123 の貢献によるもの #spark_casual

2015-06-23 20:17:44
x1 @iyunoriue

猿田さんのタイムラインの可視化 #spark_casual pic.twitter.com/JSbzlkRssQ

2015-06-23 20:17:45
拡大
Toru Shimogaki @shimtoru

DataFrame API を使うとなぜ早くなるかはこのブログエントリに少し書いてある databricks.com/blog/2015/02/1… #spark_casual

2015-06-23 20:20:24
Toru Shimogaki @shimtoru

Spark 1.4のトピック→ SparkR, Spark Streamingの統計情報の可視化, RDDの変換過程の可視化, タイムラインの可視化, Project Tungsten #spark_casual

2015-06-23 20:21:21
x1 @iyunoriue

土橋さんの発表。RDDとDataFrameの使い分けとして、スキーマレス→RDD、DataFrame→構造化データというわけはすごくしっくりくる #spark_casual

2015-06-23 20:21:37
tomo🐧@learning @cocoatomo

#spark_casual スキーマレス→RDD, 構造化データ→DataFrame

2015-06-23 20:21:52
前へ 1 2 3 ・・ 8 次へ