編集可能
2010年12月4日

HDFSはファイルサーバーに使うものじゃないよ

Hadoop(0.22以前や1.0.0)のHDFSはNameNodeがSPOF(単一障害点)なので、ファイルサーバーやデータの“バックアップ”には向かないという話です。 HDFS上に構築されているHBaseの場合、(HBase自身にはSPOFは無いけれども)HDFSにSPOFがあるので、NameNodeは冗長化した方が良いようです。 冗長化には以下のような仕組みが考えられているようです。 続きを読む
38
切り取り線 @kiri_tori

✄----------- 11/22(月) -----------✄

2010-11-22 00:00:00
御徒町@Serializable @okachimachiorz

まずアレです。HDFSをファイルサーバーの代わりに使うというの発想は、ありえないぐらい完璧な間違いです。いいですね?

2010-11-22 16:10:44
御徒町@Serializable @okachimachiorz

つぎにアレです。お客さんが読んでいそうな本。例)Googleを支える技術、とか。そういう本はIT屋であれば、普通に読んでおくべきです。

2010-11-22 16:11:59
御徒町@Serializable @okachimachiorz

HDFSをファイルサーバーに使うって発想がどの辺から出てきているのか、その辺の発祥の地を知りたいと思う。

2010-11-22 16:17:50
豊月 @yutuki_r

@okachimachiorz HDFSは、ノードを増やせば簡単に保存出来る量が増えますよ!って所からでは。

2010-11-22 16:19:08
M.Mouri @m_mouri

@okachimachiorz 画像ファイルサーバーとしてどこかで利用してた気がしたので、ググったらこんなのがでてきました。http://bit.ly/dxGSTL さすがにキャッシュが挟まっているそうですが、KVSの方がよさそうにみえます。

2010-11-22 16:36:45
Ryu Kobayashi @ryu_kobayashi

@okachimachiorz ログのバックアップ用とかには良いかも。

2010-11-22 18:24:28
iijima shinichi @siijima1974

@okachimachiorz あと勝手に分散。バックアップしてくれる点ですね。ファイルサーバーは結構バックアップにリソース食います。

2010-11-22 21:51:05
御徒町@Serializable @okachimachiorz

@ryu_kobayashi あぁ、その辺が誤解の元だわね。・・・それ「バックアップ用」でしょ?ログ自体がぶち消えたら困るでしょ?

2010-11-22 21:53:38
御徒町@Serializable @okachimachiorz

@yutuki_r 本日「分散ファイルサーバーに使えますよね?使えますよね?使えますよ?」みたいな感じになりました。正直、さすがにちょっとおおおおおお、という状態。

2010-11-22 21:55:39
御徒町@Serializable @okachimachiorz

@siijima1974 ログの正ファイルサーバーにすると、あとで泣くと思いますです。あくまで「バックアップ用」という風に思っていますが・・・・

2010-11-22 21:57:01
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

バックアップ用にHDFSという話がありますが!いいですか?「消えないからバックアップ」なんですぜ!バックアップの方が正ファイルよりも消える可能性が高い場合、それはバックアップになりませんぜ!いいですね?orz・・・ただのキャッシュって言った方が正しいと思いますですよ。

2010-11-22 21:59:31
Ryu Kobayashi @ryu_kobayashi

@okachimachiorz まぁ、なんにしてもnamenodeが死んだら終わりですがね。

2010-11-22 22:01:34
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

バックアップということは、正ファイルが死んだ場合、バックアップからリストアするんですぜ・・・・まっさきにバックアップの方が逝かれたら、バックアップにならんと思いますです。

2010-11-22 22:02:10
御徒町@Serializable @okachimachiorz

@ryu_kobayashi だから、それは「バックアップ」になりませんぜ、旦那。

2010-11-22 22:02:48
御徒町@Serializable @okachimachiorz

それで、そういう流れで、ファイルサーバーにHDFSなんて話がでるのか・・・・勘弁してくれ。

2010-11-22 22:04:08
Ryu Kobayashi @ryu_kobayashi

@okachimachiorz まぁ、そうっすね。かと言って現実的なものがないのでS3みたいなのを望みますね。なんかないっすかね?

2010-11-22 22:07:31
Guutara (⁰⊖⁰) Stay Home @Guutara

@okachimachiorz @yutuki_r 基盤は、みんな、そう言いますよ。日経を筆頭に、メディアのせいですね。スゲー、 迷惑です。

2010-11-22 22:08:36
御徒町@Serializable @okachimachiorz

@Guutara まじすか。まじすか。まじすか。

2010-11-22 22:10:16
御徒町@Serializable @okachimachiorz

@ryu_kobayashi んなものないわい。固定メディアにだらだら書き込むしかないっしょ~~~。

2010-11-22 22:11:06
Guutara (⁰⊖⁰) Stay Home @Guutara

@okachimachiorz1 今日も、アドミン研修うけたやつに、さえ、おんなじ用な、話ししたもん。ネームノードのバックアップ、リストアできたら、あんぜんですよね!みたいな。

2010-11-22 22:11:34
Guutara (⁰⊖⁰) Stay Home @Guutara

@okachimachiorz まじ、ですよ!それを、潰すために、社外講師を、よんだくらいなんですから!

2010-11-22 22:14:50
Ryu Kobayashi @ryu_kobayashi

@okachimachiorz コミュニティクラウドでやりましょうよー。

2010-11-22 22:16:19
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

HDFSはファイル・キャッシュです、と解釈すべし。①Nameノードが死んだらぶっ飛ぶ ②そもそもMRを行うためにデータをバラまいているのであって保存のためではない。③お客さんの誤解がない。・・・③はすげー大事。

2010-11-22 22:17:08
残りを読む(180)

コメント

Satoshi Noto @n3104 2010年12月8日
すみません、質問させて下さい。 HDFSはファイルサーバーに使うものではないというのは、いつでも書き込まれる可能性があるファイルサーバーの永続化領域として利用するのには向いていないとの理解で宜しいでしょうか? 例えば、日次バッチでログをHDFS上にバックアップするような形であれば、日次バッチで書きこむタイミングでエラーが発生すれば復旧してリラン出来ますし、逆に書き込んでいない時であれば単に復旧すれば良いのかと考えました。
0
Tatsuya Kawano @tatsuya6502 2010年12月11日
FacebookのAvatarNameNodeに関連したつぶやきを追加しました。(@hishidama さん、ぜひ文字に強弱を!)
0
ひしだま @hishidama 2012年1月8日
2011/1/8分を追加しました。
0