「分散システム処理モデルに関する動向について」に対する感想ツイート
@frsyuki @komamitsu_tw ちょっとはやくprivate repoに上げて俺らに見えるようにしてくださいよ
2015-06-12 00:36:19ふつうにデータ処理の手続きを書くと、ものすごく無駄が多いから、手続き型で書かせたとしても、手続きによってデータを処理するのではなく、手続きによってデータを処理する実行計画を作成し、それにoptimizerを適用してから実行するというのが最近の定石になりつつある。
2015-06-12 00:36:57exactly onceといえば、当時分散txのなかったDatastoreでどう実装するかをashigeruさんhigaさんがappengine ja nightで熱く議論してたのはもう5年くらい前か...
2015-06-12 00:37:10sparkとかflinkとか。特に分散JOINとか分散GROUP BYを手続き型で書くのはそんなに簡単でないし、自動的な最適化の余地が大きいので、optimizerの出番はかなり多い。で、議論になったのは、宣言的DSLたるSQLの分散処理系に落とし込む手続き型のDSLを作るか、
2015-06-12 00:39:48手続き型”的”DSL処理系も使いつつそこに宣言的SQLを被せるか、どっちがいいのかな、みたいな話なのだけども、ちょっと1週間ではワカラン感じ。というかその辺りで日本酒が美味しすぎて何とも。
2015-06-12 00:41:45@nalsh その通りで、makeでもあるんですよ。たぶん問題は、解決する問題を1つに絞り切れていないところで、何を切り捨てるか考えないと使いやすいツールには仕上がらないのだろうなぁと思ってます。
2015-06-12 00:43:23今週面白かったのは、nalsh + frsyuki が「はじめましてはじめまして」って言ってた1分後にはtime parserをどう高速なネイティブコードに落とし込むかの話をしてたやつでしたね
2015-06-12 00:44:51背景としては、SQLを書かせろ!という人と、SQLなんて書きたくない!という人の2種類が存在するので、たとえるならばinteractive spark派とproduction presto派の双方の要求を同時に満たすことでシステム運用を容易にする分散処理環境はどうあるべきか?と。
2015-06-12 00:57:25