GlusterFS TL

Sadayuki Furuhashi @frsyuki

ぇGlusterFSで分散ファイルシステムを構成してDRBDいらずにするとかそういう？

2011-07-20 17:53:58

Sadayuki Furuhashi @frsyuki

と言うか今気付いたけど、HDFSの代わりにGlusterFSって結構アリなんじゃないか…

2011-07-20 17:56:08

Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

@frsyuki Glusterは、Block単位の書込み分散じゃないから、その辺が、辛くなんないすか？大規模向の格納形式でも、sparse fileでの、分散書込み、だったし。3.1だけど。

2011-07-20 18:01:30

Kazuki Ohta @kzk_mover

[緩募] GlusterFSのメタデータ保持方法のドキュメント #hadoop_unconf_jp

2011-07-20 18:01:37

チーフデータサイエンティスト@トレジャ @doryokujin

@frsyuki ありですよ！

2011-07-20 17:59:21

チーフデータサイエンティスト@トレジャ @doryokujin

ただSPOFが無いところと管理のしやすさ、扱いやすさでGlusterFSはかなりイケてる。もっとちゃんと挙動を把握しておかないと…

2011-07-18 02:23:16

チーフデータサイエンティスト@トレジャ @doryokujin

@disktnk かなり色んな使い道があるのですが、僕は20GB以下の非バッチのIn-memoryデータ集計時に自前のMapReduceを書いているんですが、そこでGlusterFSとRedisを使っています。キュー的な使い方とグローバル共有メモリ空間としてアグリゲーション的な

2011-07-16 03:48:26

Sadayuki Furuhashi @frsyuki

@doryokujin 小さいファイルの扱いがうまいと、ptail的なものを作るときに嬉しい…！

2011-07-20 18:02:00

Kazuki Ohta @kzk_mover

@doryokujin @frsyuki そんなうまい話があるんでしょうか…

2011-07-20 18:03:53

チーフデータサイエンティスト@トレジャ @doryokujin

@frsyuki @kzk_mover 小さいファイルの扱いとか、InputFormatとか、実は結構難しいところがあると思ってますー。僕は到着してビール飲んでますのでまた後でー！

2011-07-20 18:10:44

Yasuhiro Arai(@kimotuki) @kimotuki

GlusterFS、Lustreの勉強会ないかなーもう普通に採用されている目新しさないからかなー @thatsdone Glusters ってのもありますよ。:) RT @understeer: LustreサイトのフッタにOracleのロゴがあって萎えた #hbstudy

2011-06-17 20:52:25

Sadayuki Furuhashi @frsyuki

@Guutara それはありそうです。巨大ファイルはHDFSに乗せた方が良さそうで、小さいめだが数が多いデータを扱いたいときに、上にミドルウェアを被せて何とかするFacebook方式を採らざるをえないところを、GlusterFSでごまかせるのではないかと、ほのかに期待…。

2011-07-20 18:05:40

Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

@frsyuki 小さいファイルに、限定するなら、面白いかもしれない。Gluster 3.1 を、テストした感じでは、あのクラスタノードの考え方は、メモリ型の分散DBなどで、採用されている、P2Pのクラスタの考えだと、思う。 (続く

2011-07-20 18:13:03

Sadayuki Furuhashi @frsyuki

GlusterFSのストライピングの実装は謎だけど、基本的には各ノードのファイルシステムに生でファイルを置く + 謎のメタデータ管理というイメージ。その謎のメタデータ管理がキモなのだけども。

2011-07-20 18:08:17

Shinpei Ohtani @shot6

GlusterとHadoopのようなデータインテンシブなところとどれくらい相性がいいのかがわかってないです。 RT @frsyuki: @Guutara それはありそうです。巨大ファイルはHDFSに乗せた方が良さそうで、小さいめだが数が多いデータを扱いたいときに、上にミドル...

2011-07-20 18:08:45

Sadayuki Furuhashi @frsyuki

メタデータは無いらしい。ハッシュベースの分散か。E"lastic Hash" がポイントらしいが…まぁ普通のハッシュでしょう。偏りそうだな。

2011-07-20 18:15:17

k1LoW @k1LoW

TL上でGluster話が進んでいて非常に興味深い。こっそり傍観。

2011-07-20 18:45:15

Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

@frsyuki 全てのノードが、ピアを、張っている、全てのクラスタノードと、交信していて、各々のノードに着いたHash Keyと、ロジックで、分散を、実現している。その為、ファイルのメタデータは、基本的に、存在してない。

2011-07-20 18:15:03

Sadayuki Furuhashi @frsyuki

@Guutara なるほど。確かにwhitepaperを読む限りでも、そんな感じですね

2011-07-20 18:15:51

Sadayuki Furuhashi @frsyuki

となると、稼働中にノードを足すとか復旧させる挙動が基本的に危ないハズで、そこがうまく動けば実装はシンプルなハズだな。あとは偏りを制御できれば普通に使えそう。

2011-07-20 18:18:10

Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

@frsyuki 敢えていえば、ノードのHash Keyと、NetWorkのアドレス、クラスタで、作成したVOLの情報などが、メタデータ。同じものを、全てのクラスタノードが、保持している。

2011-07-20 18:16:01

Sadayuki Furuhashi @frsyuki

@Guutara なるほど。シンプルなんですね。ノードを追加/復旧させる挙動が危なそう…

2011-07-20 18:18:43

Kazuki Ohta @kzk_mover

@frsyuki @Guutara そのタイミングでクライアントに通知するのがCephのcrushだたような

2011-07-20 18:19:59

Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

@kzk_mover @frsyuki うん。多分、マルチマスターな管理には、その辺りが、実運用での最大の差別化要因。あと、Gluster は、L2を、超えた通信を、可能にしたくて、マルチキャストではなく、IPを、全てのノードにもった形のピアに、してるっぽいかなぁ。

2011-07-20 18:29:42

Kazuki Ohta @kzk_mover

@Guutara クライアント/サーバー間で、コネクションを全対全で貼ってたりします？

2011-07-20 18:17:11

いま話題のタグ