アシスタントの方がなぜ着物なのか #sparkmeetup
2014-09-08 19:35:15@nobusue あ、そうか、あの説明は「必ずしもキャッシュのある位置にタスクを再割り当てしない」ですね。勘違いしてました。
2014-09-08 19:37:26そんなにやれることないので、まだ終わってないけど、まとめる作業してる togetter.com/li/716841 #sparkmeetup
2014-09-08 19:39:31@okapies SparkにとってはRDDこそが正で、必要に応じてメモリ上に展開するけど、cache()を呼ぶと明示的にキャッシュできる、というだけの話だったと理解してます #sparkmeetup
2014-09-08 19:40:25Spark、こんなにみんなでがっつりやってる感あるので、実用上必要そうなものはだいたい入ってるだろうなーと思いながら見ていて、細かい機能の有無を聞く気にならないな #sparkmeetup
2014-09-08 19:43:15Spark streamingのときにcheckpointingのオンオフや細かい制御ができるかどうか気になるが、まあどうせできるだろ
2014-09-08 19:43:49チェックポイントをどの程度とるかはパフォーマンスとのトレードオフ。ただしストリーミングの場合は定期的にとっておくとよい。 #sparkmeetup
2014-09-08 19:43:55あーCPってのは普通は後ろで隠れるもんなんだと思うぞ。明示的とかセンス悪い気がする。安全とりたきゃ明示的に書き出すってのが普通だと思うが。#sparkmeetup
2014-09-08 19:45:22(日本語でも誰かが訳すって言ったのに) 普通にほとんどが英語で質問してくれてる。 これをすごいと思うのか、当たり前と思うのか・・・ #sparkmeetup
2014-09-08 19:49:46Tachyon にオフヒープしておけば Spark の方がクラッシュしても保全されるから都合がいい、みたいな感じ? #sparkmeetup
2014-09-08 19:50:04Spark Streamingにはssc.checkpoint(hdfsPath)でセットしたパスにdstream.checkpoint(interval)で定期的に書き出す機能がある #sparkmeetup
2014-09-08 19:50:05Checkpoint、HadoopならReduceで強制的に吐き出すけど、Sparkだと複数MapReduceを繰り返すExecutionModel組まれるから必要になるイメージ #sparkmeetup
2014-09-08 19:50:16今日の僕の発表資料になります。 slideshare.net/ueshin/2014090… #sparkmeetup
2014-09-08 19:55:13サンプルはGistに貼ってあります。 gist.github.com/ueshin/413280f… #sparkmeetup
2014-09-08 19:55:22@okapies atomic になってるから fail から復帰したときに中間状態はないよ、みたいな話ですかね。話は全然ききとれませんでしたがw
2014-09-08 19:58:51