ネジ屋の本当は怖いRAIDはバックアップじゃない話

9
倉井 @Ckurai

RAIDとバックアップは違うしハードウェアなRAIDカードが提供するのはダウンタイム無しでメンバのディスク交換出来る論理ボリュームだし、それとファイルシステムは別な話だからファイルシステム飛べば意味がないっつーの

2014-02-19 22:19:20
倉井 @Ckurai

後はまぁ、結局HDDそのものは生物なんで交換出来る分用意したってメンバの老朽化には勝てんし、ついでに言うと取り扱ったことがあるRAIDカードだと結局単発HDDのバッドセクタのような感じでバッドストライピングってのが発生することもあるからいつかは論理ボリュームとして役にたたなくなる

2014-02-19 22:21:38
倉井 @Ckurai

なんで実は壊れかけのRAIDOってのも存在出来るというかストライピングがあるようなRAIDレベルでもカードによっては(なのか?)バッドストライプが発生してじわじわと読めないところが出てくる。壊れかけというにはちょいと違うかもしれんがRAID0もFail以外に異常は発生する

2014-02-19 22:23:23
倉井 @Ckurai

バッドストライプとか実際よく分からんので一つ真面目なメーカーの記事でも読んで下さい http://t.co/WCYkwXzlq5

2014-02-19 22:24:38

倉井 @Ckurai

さてログというものがどれだけ重要かという話でもみんな大好きRAIDで例えてかまそうかと思ったがダルい

2014-04-21 21:57:21
倉井 @Ckurai

原理上理論上は魔法のシステムかもしれんがRAIDシステムとは言っても結局は大量生産大量消費で部品を組み合わせて作られた装置というのはおわかりだとは思う。電源部分、接続先とのインターフェース部分のコントローラ、RAIDのコントローラ、ディスク等々

2014-04-21 21:59:11
倉井 @Ckurai

つまりですね。RAID装置というかRAIDってHDD以外で壊れることがあるんですよ。HDD以外の部分というか

2014-04-21 21:59:43
倉井 @Ckurai

ココでn台のHDDを使ったRAID6+Spareの一度に吹き飛んでもいい環境を考えたときに仮に1台2台飛んでリビルドが走っているときにRAIDコントローラが吹き飛んで10台くらい同時にHDDを認識出来なくなって全体として死んだときにこう考えるわけだ。

2014-04-21 22:02:19
倉井 @Ckurai

「コントローラを同品に交換して人間がマニュアルで当時吹き飛んだディスクのうちコントローラに巻き込まれただけのディスクを指定してボリュームを構築しなおせばデータが見えるのではないか」と

2014-04-21 22:03:21
倉井 @Ckurai

ココでちゃんと考える必要があってコントローラが吹き飛んだときに巻き込まれたy台のディスクというのは同じタイミングで最後に同時に吹き飛んだように見えるわけだがn台のディスクは更に前の時間に吹き飛んでいるわけだ。nもyもRAIDのメンバーとして認識させるとおかしいことになる

2014-04-21 22:04:58
倉井 @Ckurai

と言うことは最後にコントローラが巻き込む前から死んでいたディスクはメンバから外しておかないといけない、ココでディスクが生きていたログを持っていない怖いことが起きて、1台その手前で死んでいた場合はn台分しか候補がないんですが、2台死んでたらn(n-1)候補があるんですよ

2014-04-21 22:06:36
倉井 @Ckurai

んーと、RAID6って二台くらい吹き飛んでもいいんですがすると最悪の場合ログも無しに総当たりする場合n(n-1)通り除外してレスキューモードでボリューム設定しないといけなかったりで、ソレがまれに24x23とか馬鹿げた数字になる可能性だってあるわけですよ

2014-04-21 22:08:10
倉井 @Ckurai

馬鹿馬鹿しいでしょ? そりゃ相手先とかに直前の状況とか直後の状況の確認作業ですよ。n(n-1)通り毎度カード操作してからOSでマウントして確認とかスゴイ時間かかりますもの

2014-04-21 22:09:17
倉井 @Ckurai

まぁもっと酷い場合はRAID構築時のパラメータを忘れていてストライプサイズなんかで泡吹くこともあるけど…ログとか過去の資料ってスゲー大事なんですよ、中身が飯とか首に繋がっていると

2014-04-21 22:10:29
倉井 @Ckurai

と言うわけで世の中そんなことが起きたり、そもそもRAIDコントローラ一枚に24台も60台もHDDを預けるってのは怖いってことでRAIDコントローラ二枚が連携してくれて片方吹き飛ばしても動くようにとかしてくれています。でもそれでも次はHDDを接続するためのバックプレーンが壊れたりと

2014-04-21 22:12:15
倉井 @Ckurai

HDDは生物でRAIDなら止まらずに読み書き出来るでしょと言われようともコントローラもバックプレーンも魔法で作られているわけではないので世の中RAIDカードにもバックプレーンにも保証期間とかRMAとかあるし、それらのせいで事故やデータロストが起きたりするわけです

2014-04-21 22:13:35
倉井 @Ckurai

ネジ屋の本当は怖いRAIDはバックアップじゃない話

2014-04-21 22:14:13
倉井 @Ckurai

RAIDがディスク以外は壊れない魔法のシステムやら装置だと思ってました?

2014-04-21 22:15:07
倉井 @Ckurai

魔法使いさんでしょうか

2014-04-21 22:15:14
倉井 @Ckurai

いや魔法のRAIDじゃなくてログとか過去の資料とかちゃんと作っておけって話のほうをしたかったがまぁいい

2014-04-21 22:16:34
倉井 @Ckurai

まぁ接続先のインターフェース部分が壊れるだけならいいんですよ。見えなくなるだけで同じ装置にHDDぶち込めばソレで終わりですから

2014-04-21 22:17:40
倉井 @Ckurai

まぁもっと怖いとホットスワップ分も抜かないといけないから過去のデータ無いとRAID6でホットスペア1台ならn(n-1)(n-2)通りとかあるっぽいけど、ホットスペア2台だと? 流石にコレは考えたらキリが無いからやらん

2014-04-21 22:23:26