2015年6月11日

「分散システム処理モデルに関する動向について」に対する感想ツイート

どなたか分散処理システムの歴史書を書いて下さい(懇願。 http://techblog.yahoo.co.jp/architecture/2015_06_ditributed_system/
15
kuenishi @kuenishi

やっぱり書いておこう。僕の理解と全然違っていて、目的の異なるシステムがごっちゃにされてると思う / “分散システム処理モデルに関する動向について(MapReduceからBorgまで) - Yahoo! JAPAN Tech Blog” htn.to/ffD7E1R

2015-06-11 22:00:40
kuenishi @kuenishi

CaffeineとStormとPrestoが同じカラムに並んでる時点でちょっと「ん?」って思う

2015-06-11 22:06:22
kuenishi @kuenishi

あと僕の理解だとMapReduceは分散システムじゃないかな。Distributed SystemsじゃなくてDistributed Processingの技術です

2015-06-11 22:07:18
kuenishi @kuenishi

MapReduceがすごいのは、いろんな計算をMapとReduceという、参照透過な処理に押し込めたところなんだけど、参照透過にすると並列処理だけじゃなくて障害時に再実行できたり投機実行できたりするのもメリットなわけです

2015-06-11 22:09:22
kuenishi @kuenishi

大域的な状態を必要とするアルゴリズム、そもそも分散処理できないっしょ、それをできないと割りきったのもMapReduce

2015-06-11 22:09:56
kuenishi @kuenishi

あと、MapReduceが普及したのはもうひとつ、ビッグデータのマエショリを簡単にしたからです。どんなフォーマットでも処理できた。従来の分散DB界はこれを軽視してた。これMapReduceがなくならない理由のひとつ。

2015-06-11 22:11:55
kuenishi @kuenishi

GoogleがMapReduce使ってないと言ったのは、狭義には生でC++書くMapReduceはもう使ってないという話か、第一世代の実装を使ってないという意味であって、MapReduce的分散処理がなくなることはないと思う

2015-06-11 22:13:31
kuenishi @kuenishi

ここは1次情報みてないんで推測なんだけどw

2015-06-11 22:13:55
kuenishi @kuenishi

なんていうか、Sawzallのこと忘れないでよっ!!!って思ったのがあの表の第一印象です

2015-06-11 22:14:33
kuenishi @kuenishi

SpannerとF1が同じ行に並んでるのも違和感である

2015-06-11 22:14:55
kuenishi @kuenishi

細かいところだと「改善化」

2015-06-11 22:15:27
kuenishi @kuenishi

いま俺の記憶力が試されている

2015-06-11 22:16:55
kuenishi @kuenishi

Caffeinはリアルタイムじゃなくてインクリメンタル処理、だよねえ…おそらくスケジューリングの仕組みが全然違う(読んでない

2015-06-11 22:17:48
kuenishi @kuenishi

DremelとMapReduceは全然目的が違うし、Nested Columnを分散処理に使ったところが当時インパクト強かったわけです。OLAP的な処理をMapReduceやってたら移行するかもしれないけど、全部移行するのはムリ

2015-06-11 22:19:18
kuenishi @kuenishi

DremelがBigQueryになったとハッキリいわないところはまあ、仕方がないかもしれない

2015-06-11 22:19:42
kuenishi @kuenishi

F1の論文、MapReduceのinputにできるよーと書いてあった(うろ覚え)だけで、フレームワークに対応とかそういう大袈裟な話ではなかったと思うが

2015-06-11 22:20:41
kuenishi @kuenishi

あとインパラが登場しない…

2015-06-11 22:21:20
kuenishi @kuenishi

MapReduceに性能的な問題があったって、あれが全盛だった2002年とか2004年はメモリがすげー高かったわけで、10年経ったら当然状況も違うんだよね。もしメモリ価格がいまの5倍とか10倍だったら普通にみんなMapReduce使うと思うんですよ

2015-06-11 22:22:49
Kazunori Sato @kazunori_279

@kuenishi あの記事はいろいろつっこみたくなりますが、グッとこらえました :)

2015-06-11 22:24:06
kuenishi @kuenishi

参照透過性云々の下りは正直、全然意味がわからない

2015-06-11 22:27:30
kuenishi @kuenishi

忘れちゃダメだよLINQ!!!

2015-06-11 22:27:55
kuenishi @kuenishi

高速な入出力が可能な分散ストレージ

2015-06-11 22:28:25
kuenishi @kuenishi

ファイルシステムに列指向かどうかって関係ないと思うんだけど…

2015-06-11 22:31:32
kuenishi @kuenishi

あとBigTableの列指向は巨大でSparseなテーブルを扱うためのものなので、その目的を説明しないと、他の列指向DBと区別つかないと思うよぉ

2015-06-11 22:33:10
kuenishi @kuenishi

MegaStoreはトランザクションぽいところがキモなわけで、データモデルはBigTableから変わってないと記憶しているが、なんか間違ってたっけ(曖昧

2015-06-11 22:34:05
残りを読む(166)

コメント

Satoshi Konno @skonno 2015年6月14日
記事を書いた物です。まとめありがとございます。参考にさせて頂きますね〜
0
Satoshi Konno @skonno 2015年6月14日
まとめについてすが、週末に@kuenishi さんにリプライして色々とやり取りしてました。こちらも追加してもらうとありがたいです〜
0