「サイバーエージェントではSparkを分析基盤として使っていたり、一部Streamingを使っていたりする。規模としてはまだアドホック的に使う程度。」 #spark_casual
2015-06-23 19:58:51#spark_casual 「CA さんは, どのくらいの規模で使っているのか?」「それぞれのチーム, プロジェクトで使っている. 規模はそれほどではない. 気軽な感じで使っている. 使っていても変には思わない雰囲気.」
2015-06-23 19:59:28SSDとか10Gbpsを積むとCPUネックになる傾向が強くなる、とブログに書いてあった by @raspberry1123 #spark_casual
2015-06-23 20:00:14Sparkもunsafe使うのね。 java パフォーマンスだしたい人はみんな使うのね。 Embulk も使っていると言っていたし、最近、もう一つぐらい「使っているよ」の話を聞いたが失念。 #spark_casual
2015-06-23 20:04:02Spark 1.3までのトピック→ Kafkaとの連携強化(Spark Streaming), Pipeline API(MLLib), DataFrame API(Spark SQL) #spark_casual
2015-06-23 20:13:17DataFrame API の場合は、Python は(Scala で書いた場合と同様に)単に DSL として扱われるってことかな。 #spark_casual
2015-06-23 20:13:40#spark_casual 「Python から RDD API を使うと, JVM 上で実行されるときに UDF を実行するために Python プロセスが起動する. それも Scala に比べて遅い理由なんでは?」 そりゃメモリ確保とか初期化の部分とかあるし.
2015-06-23 20:14:13DataFrame API を使うとなぜ早くなるかはこのブログエントリに少し書いてある databricks.com/blog/2015/02/1… #spark_casual
2015-06-23 20:20:24Spark 1.4のトピック→ SparkR, Spark Streamingの統計情報の可視化, RDDの変換過程の可視化, タイムラインの可視化, Project Tungsten #spark_casual
2015-06-23 20:21:21土橋さんの発表。RDDとDataFrameの使い分けとして、スキーマレス→RDD、DataFrame→構造化データというわけはすごくしっくりくる #spark_casual
2015-06-23 20:21:37