Spark Casual Talk #1 まとめ #spark_casual (3ページ目)

#spark_casual 「CA さんは, どのくらいの規模で使っているのか?」「それぞれのチーム, プロジェクトで使っている. 規模はそれほどではない. 気軽な感じで使っている. 使っていても変には思わない雰囲気.」

2015-06-23 19:59:28

SKS/ファントムの申し子 @repeatedly

RDD，今後は表部隊から消えて行くのかな…？ #spark_casual

2015-06-23 20:00:01

SSDとか10Gbpsを積むとCPUネックになる傾向が強くなる、とブログに書いてあった by @raspberry1123 #spark_casual

2015-06-23 20:00:14

#spark_casual 猿田さん, 土橋さんの発表

2015-06-23 20:00:40

SKS/ファントムの申し子 @repeatedly

コミッタになった猿田さんだ！ #spark_casual

2015-06-23 20:01:33

土橋さんと猿田さんの発表はじまった！ #spark_casual pic.twitter.com/dKHgEHJqnA

2015-06-23 20:02:06

拡大

#spark_casual Spark のこれまで, と, Spark のこれから

2015-06-23 20:02:36

SKS/ファントムの申し子 @repeatedly

Spark，黄色い生き物のロゴがないのがネック #spark_casual

2015-06-23 20:03:25

kbhrs @kbhrs_jp

Sparkもunsafe使うのね。 java パフォーマンスだしたい人はみんな使うのね。 Embulk も使っていると言っていたし、最近、もう一つぐらい「使っているよ」の話を聞いたが失念。 #spark_casual

2015-06-23 20:04:02

Spark1.3からStreamingのExactly-Onceが保証されるようになった。 #spark_casual

2015-06-23 20:08:55

Aki Ariga @chezou

Pipeline APIはscikit-learnからの輸入なのか #spark_casual

2015-06-23 20:09:55

Spark 1.3までのトピック→ Kafkaとの連携強化(Spark Streaming), Pipeline API(MLLib), DataFrame API(Spark SQL) #spark_casual

2015-06-23 20:13:17

Yuta Okamoto @okapies

DataFrame API の場合は、Python は（Scala で書いた場合と同様に）単に DSL として扱われるってことかな。 #spark_casual

2015-06-23 20:13:40

#spark_casual 「Python から RDD API を使うと, JVM 上で実行されるときに UDF を実行するために Python プロセスが起動する. それも Scala に比べて遅い理由なんでは?」そりゃメモリ確保とか初期化の部分とかあるし.

2015-06-23 20:14:13

Aki Ariga @chezou

SparkR変態すぎる。Rで書いてScalaで書くのに近い速度が出るのか… #spark_casual

2015-06-23 20:14:47

Spark1.4でSparkStreamingの統計情報が可視化されるようになった！これはすごい！ #spark_casual

2015-06-23 20:15:02

Spark1.4のRDD変換過程の可視化もすごいよね。驚いた機能の一つ。 #spark_casual

2015-06-23 20:15:47

アルフォートおじさん @joker1007

RDDの変換過程の可視化凄いな。 #spark_casual

2015-06-23 20:15:53

このタイムラインの可視化が @raspberry1123 の貢献によるもの #spark_casual

2015-06-23 20:17:44

猿田さんのタイムラインの可視化 #spark_casual pic.twitter.com/JSbzlkRssQ

2015-06-23 20:17:45

拡大

DataFrame API を使うとなぜ早くなるかはこのブログエントリに少し書いてある databricks.com/blog/2015/02/1… #spark_casual

2015-06-23 20:20:24

Spark 1.4のトピック→ SparkR, Spark Streamingの統計情報の可視化, RDDの変換過程の可視化, タイムラインの可視化, Project Tungsten #spark_casual

2015-06-23 20:21:21

土橋さんの発表。RDDとDataFrameの使い分けとして、スキーマレス→RDD、DataFrame→構造化データというわけはすごくしっくりくる #spark_casual

2015-06-23 20:21:37