GlusterFS TL

2011-07-20 に発生した GlusterFS TL とその周辺
15
前へ 1 2 3 ・・ 6 次へ
中村 実 @nminoru_jp

@range2010 GlusterFSは、ディレクトリに関する処理をすべてのbrickに同期的に書き込むようなので分散数が増えると大変です。ただdistributed volsでは各brickのディレクトリのxattrは同じ値になっているはずなので、一貫性は保たれています。

2011-07-20 19:47:07
Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

@frsyuki kumofsとか、分散DB周りで、運用管理まで考えた設計してる人なら、すごーく、わかるでしょ? www

2011-07-20 18:31:43
Sadayuki Furuhashi @frsyuki

@Guutara すごーく、わかりますねw kumofsはノードの追加/復旧時の一貫性維持のためだけに、マスタノードを追加しているくらいなので…。

2011-07-20 18:33:50
Keisuke Takahashi / KT @kske_t

@frsyuki かれこれ丸4年になります。v1.3.7から現在までです。

2011-07-20 18:33:23
Sadayuki Furuhashi @frsyuki

@keithseahus なんと4年ですか! かなり安定していそうですね。これはちょっと使ってみたくなります^^; 規模が気になるところですが、数十台/数百GBくらいでしょうか?

2011-07-20 18:39:10
SODA Noriyuki @n_soda

@range2010 @keithseahus @frsyuki ということは、"Elastic Hash"はパス名から計算してるということでしょうか?大きなディレクトリ・ツリーをmvで動かすと何が起きるのでしょう?

2011-07-20 18:39:38
SODA Noriyuki @n_soda

どうでもいいけどglusterfsのMLでmanu at NetBSD.orgを見かけますな。

2011-07-20 18:40:35
Keisuke Takahashi / KT @kske_t

@frsyuki FUSE周りの不安定さがあったので、NFSがメインのプロトコルになってからは、大きく安定したと思います。とはいえ、まだ未成熟ですけれども。規模は、業務上の守秘義務があるので言えませんが、今動いているもので最大のものだと、1クラスタで25TB程になります。

2011-07-20 18:48:27
Sadayuki Furuhashi @frsyuki

@keithseahus おぉ大きいですね! ありがとうございます。 FUSE は linux 2.6.3x でもだいぶ変更が入っているようですが、NFSで直アクセスした方が安定しそうですね。そもそもロックなどは避けた方が良さそうですし。

2011-07-20 18:55:53
K.H @range2010

v3.2.1ですが,distributed replicated volumeと,distributed striped volumeは不安定という印象で,distributed volumeとstriped volumeとreplicated volumeは問題なく動きました.

2011-07-20 19:13:32
Keisuke Takahashi / KT @kske_t

@frsyuki FUSE周りの不安定さがあったので、NFSがメインのプロトコルになってからは、大きく安定したと思います。とはいえ、まだ未成熟ですけれども。規模は、業務上の守秘義務があるので言えませんが、今動いているもので最大のものだと、1クラスタで25TB程になります。

2011-07-20 18:48:27
SODA Noriyuki @n_soda

来月くらいにリリース(予定)のGfarm-2.5だと、やっとこさDRBDに頼らないメタデータ分散がつく予定なんだけど、BBWCつきRAIDでの同期書き込み性能が1万~2万IOPS程度みたいで、新規作成は原理的にそれ未満のはず。Fusion-io使うともう1桁上へいきますかね?

2011-07-20 19:00:14
Keisuke Takahashi / KT @kske_t

stub fileと呼ばれる0バイトのファイルが生成され、ポインタライクな役割をします。diskがfullの場合もこれが使われます。 RT @n_soda: @range2010 @keithseahus @frsyuki ということは、"Elastic Hash"はパス名から計

2011-07-20 18:56:33
Keisuke Takahashi / KT @kske_t

@frsyuki FUSEの場合、ロックはglusterfsdが持っています。これだと、共有ロックとしての信頼性はありますが、障害時にロックが残るケースがあります。glusterfsdを再起動すればという話ですが、商用利用ではそんなことさせて貰えないのが現実です。

2011-07-20 19:01:14
Sadayuki Furuhashi @frsyuki

メタデータ管理がないと言うことは、多少データがヘンなことになっても固まることは無いハズで、言い換えれば最悪でも一貫性を妥協すれば安定運用はしやすそうな印象。FUSEは確実に微妙なので、直NFSが本命か。

2011-07-20 19:02:31
Naoto MATSUMOTO @naoto_matsumoto

http://bit.ly/qfQsaP InfiniBandで変わるデータセンター内通信(後編)公開なう。

2011-07-20 19:04:23
Keisuke Takahashi / KT @kske_t

@frsyuki また、FUSEだと対応していないシステムコールを上位のアプリが使いたいときに困りました。その点、NFSは良く出来ていると思います。ただ、当然ですが、独自実装のNFSサーバなので、nfslockは効きません。lockサービスのようなものも現時点ではありません。

2011-07-20 19:04:38
K.H @range2010

@n_soda 一旦すべてのディレクトリを消して,今度はfugaというディレクトリを作って,同じ名前の1MiBのファイルを10個作った場合,今度は先ほどとは別の場所にファイルの実体が作成されました.

2011-07-20 19:04:43
Sadayuki Furuhashi @frsyuki

@keithseahus なるほど。分散FSでロックは基本的に危ないですし、やはり運用回避が必須になりそうな印象です。NFSはプロトコルが単純なので良いですね。あとは障害時の復旧手順さえ確立できれば、相当に良さそうな気がしてきました!(そこも難しそうですが

2011-07-20 19:08:23
SODA Noriyuki @n_soda

@range2010 ありがとうございます。ファイル改名/移動時には、新しいパス名に対応するノード上に、実体を指すポインタができるだけで、実データをいつ動かすかは不明(動かないかも?)って感じなんですね。実ファイル数に比例するポインタができるのか、もっと少ないのかが気になります。

2011-07-20 19:13:49
K.H @range2010

@frsyuki @n_soda @nminoru_jp http://t.co/EdMXuhM 自分が1週間前ぐらいに測定した,GlusterFS v3.2.1の性能評価を公開してみました.簡単な測定ですが,よかったら参考にしてください.

2011-07-20 20:38:48
K.H @range2010

distributed replicated volumeは,lsをすると毎回結果が違っていて,distributed striped volumeは,ファイルが作成出来ない/消せないという問題が発生して,性能評価が出来なかった..

2011-07-20 19:14:37
Keisuke Kadoyama @bageljp

Gluster検証中。せっかくなんで先週出たばかりの3.2.2を使用。とりあえずreplica組むのが基本っぽい。stripeだと書き込んだファイルが参照出来ないという謎な現象。 あとノード一つ再起動させたら、起動してきたあとも接続失敗のログが出続けてる。これはバグなのかな?

2011-07-19 20:07:00
Keisuke Kadoyama @bageljp

glusterボリュームの利用について、NFSで使うとglusterノード障害時に自動で切り替わらんって話なのでfuse使うかな。 あとは性能が気になる。特にNFSとの比較とノード数増やしたときの比較。 普通のNFSサーバと比べて性能も良さそうなら、早速次のPJで提案してみよ。

2011-07-19 20:15:03
前へ 1 2 3 ・・ 6 次へ