RAIDとバックアップは違うしハードウェアなRAIDカードが提供するのはダウンタイム無しでメンバのディスク交換出来る論理ボリュームだし、それとファイルシステムは別な話だからファイルシステム飛べば意味がないっつーの
2014-02-19 22:19:20後はまぁ、結局HDDそのものは生物なんで交換出来る分用意したってメンバの老朽化には勝てんし、ついでに言うと取り扱ったことがあるRAIDカードだと結局単発HDDのバッドセクタのような感じでバッドストライピングってのが発生することもあるからいつかは論理ボリュームとして役にたたなくなる
2014-02-19 22:21:38なんで実は壊れかけのRAIDOってのも存在出来るというかストライピングがあるようなRAIDレベルでもカードによっては(なのか?)バッドストライプが発生してじわじわと読めないところが出てくる。壊れかけというにはちょいと違うかもしれんがRAID0もFail以外に異常は発生する
2014-02-19 22:23:23原理上理論上は魔法のシステムかもしれんがRAIDシステムとは言っても結局は大量生産大量消費で部品を組み合わせて作られた装置というのはおわかりだとは思う。電源部分、接続先とのインターフェース部分のコントローラ、RAIDのコントローラ、ディスク等々
2014-04-21 21:59:11ココでn台のHDDを使ったRAID6+Spareの一度に吹き飛んでもいい環境を考えたときに仮に1台2台飛んでリビルドが走っているときにRAIDコントローラが吹き飛んで10台くらい同時にHDDを認識出来なくなって全体として死んだときにこう考えるわけだ。
2014-04-21 22:02:19「コントローラを同品に交換して人間がマニュアルで当時吹き飛んだディスクのうちコントローラに巻き込まれただけのディスクを指定してボリュームを構築しなおせばデータが見えるのではないか」と
2014-04-21 22:03:21ココでちゃんと考える必要があってコントローラが吹き飛んだときに巻き込まれたy台のディスクというのは同じタイミングで最後に同時に吹き飛んだように見えるわけだがn台のディスクは更に前の時間に吹き飛んでいるわけだ。nもyもRAIDのメンバーとして認識させるとおかしいことになる
2014-04-21 22:04:58と言うことは最後にコントローラが巻き込む前から死んでいたディスクはメンバから外しておかないといけない、ココでディスクが生きていたログを持っていない怖いことが起きて、1台その手前で死んでいた場合はn台分しか候補がないんですが、2台死んでたらn(n-1)候補があるんですよ
2014-04-21 22:06:36んーと、RAID6って二台くらい吹き飛んでもいいんですがすると最悪の場合ログも無しに総当たりする場合n(n-1)通り除外してレスキューモードでボリューム設定しないといけなかったりで、ソレがまれに24x23とか馬鹿げた数字になる可能性だってあるわけですよ
2014-04-21 22:08:10馬鹿馬鹿しいでしょ? そりゃ相手先とかに直前の状況とか直後の状況の確認作業ですよ。n(n-1)通り毎度カード操作してからOSでマウントして確認とかスゴイ時間かかりますもの
2014-04-21 22:09:17まぁもっと酷い場合はRAID構築時のパラメータを忘れていてストライプサイズなんかで泡吹くこともあるけど…ログとか過去の資料ってスゲー大事なんですよ、中身が飯とか首に繋がっていると
2014-04-21 22:10:29と言うわけで世の中そんなことが起きたり、そもそもRAIDコントローラ一枚に24台も60台もHDDを預けるってのは怖いってことでRAIDコントローラ二枚が連携してくれて片方吹き飛ばしても動くようにとかしてくれています。でもそれでも次はHDDを接続するためのバックプレーンが壊れたりと
2014-04-21 22:12:15HDDは生物でRAIDなら止まらずに読み書き出来るでしょと言われようともコントローラもバックプレーンも魔法で作られているわけではないので世の中RAIDカードにもバックプレーンにも保証期間とかRMAとかあるし、それらのせいで事故やデータロストが起きたりするわけです
2014-04-21 22:13:35まぁもっと怖いとホットスワップ分も抜かないといけないから過去のデータ無いとRAID6でホットスペア1台ならn(n-1)(n-2)通りとかあるっぽいけど、ホットスペア2台だと? 流石にコレは考えたらキリが無いからやらん
2014-04-21 22:23:26