サーバのディスクの話

サーバーのハードウェアの話、Raid/HDDエージング/SATA/SAS/データーが飛ぶ/遅延 自分で欲しかったのでまとめておきました。誰でも編集可能にしておきますので補完してくださいな。
165
sugipooh @sugipooh

日本にRAIDという言葉が無いころからストレージ障害の近くに居る。 すぐにデータが消えるMO、動いているときに「こつん」とたたくと古い データを消しても平気に動くHDD、それを守るためのRAIDのいい加減さ。 どうしてストレージ障害が起きるか?根本を知らない人が多すぎる。

2012-01-08 02:05:03
sugipooh @sugipooh

RAID5コントローラを市場で初めて多数売った今は無いMylexへ研修に 行かしてもらった。そのときRAID5でデータが無くなる条件を聞いた。 「簡単に飛ぶ(驚)」。その10年後 日本の会社がその簡単に飛ぶ条件で 多量にRAIDを売っている。おかげでデータ復旧会社が繁盛している。

2012-01-08 02:08:32
sugipooh @sugipooh

「簡単にデータが飛ぶ」RAID5でビジネスを辞めたが、その頃から市場では ビジネスが拡がってゆく。正直なビジネスは儲からない。 対策として新しい方式RAID6が出てきたが、「簡単に飛ぶ確率が低くなった」 だけで、飛んだRAIDで苦労を知らない人が使うと やっぱり「簡単に飛ぶ」

2012-01-08 02:12:13
sugipooh @sugipooh

1億円以上の機能を持つ3000万円のストレージを売る会社が出てきて 誇大広告で釣られた無知な日本ユーザーがたくさん買っていた。 訴訟が起きないのが不思議。裏技上手なんでしょうね。

2012-01-08 02:15:19
sugipooh @sugipooh

その1億円以上の機能がOSSで使えるという時代が来ている。 でも、OSSがどの程度まで年5000人もかかって作られたソフトに 近づいているのか?ストレージがむずかしいのを知らない人が 偉そうに自慢するので、データを飛ばすことだけを指摘して放置。

2012-01-08 02:18:21
sugipooh @sugipooh

ネットワークのシステムだから、システム不具合の場合、いろいろな知恵で その不具合を見つけるツールを使って原因を探して直す。 1000万円以上コストを出せば、強制的に不具合を発生させることも出来る。

2012-01-08 02:21:56
sugipooh @sugipooh

ストレージで不具合を発生させるツールは一般に売られていない。 当然で 売れば、数億円以上するので 誰も買わないから。 HDDやSSDの中で起こるエラーは外部に出てこない。 IAサーバのメモリエラーもECCを使っても検出が怪しい。 OSSは動いても、ストレージ障害は起きる。

2012-01-08 02:25:37
sugipooh @sugipooh

HDDでもSSDでも ストレージ障害を減らすことは出来る。無くすことは 出来ない。減らす方法は黙っている。なぜなら外部にノウハウが漏れた時に いろんなコストが発生する。アキバでパーツを買えば数10万で組めるものを 数100万円で売っている利益の元がそこにあるから、誰も言わない。

2012-01-08 02:30:47
sugipooh @sugipooh

TCP/IPがATMを駆逐した。でもシステムに詳しい人たちは未だに「ATMが良い」という。そりゃそうだ、時間遅延があればデータを捨てるプロトコルが主流になると誰も思っていなかった。iSCSIがRFCになった。15年かかっている。なぜ15年かかったのか?大事なことを協議していたから

2012-01-08 02:34:38
sugipooh @sugipooh

イーサでもSCSIでもSATAでも 通信している限りはハンドシェイクしている。 時間遅延が起きて、いつタイムアウトとするのか?むちゃくちゃ難しい。 SCSIは古くからコマンド規格がしっかりしていたけど、その光版FCのICを 作れる人は日本に一人しかいない。

2012-01-08 02:40:35
sugipooh @sugipooh

なぜなら、SCSIコマンドで規定された内容だけでは、エラー処理が書けない。 もう大先輩は弟子を持っていないので、日本でFCなどのHBAは作れないと思う。 SATAは論外、規格はもっと軽い。各社困った部分は勝手。大手ストレージ会社はSAS(シリアルSCSI)しか使わない。

2012-01-08 02:43:47
sugipooh @sugipooh

OSSを使って、SATAドライブでエラーが出ない集合ストレージなど作れない。 OSSにどれだけエラールーチン入っているか?そこが勝負。ストレージ系OSSのファンクションだけ観て良い悪いという人が多い。ストレージはファンクションより年に1回しか出ないエラーを事前に予測するのが大事

2012-01-08 02:47:37
sugipooh @sugipooh

SCSI HDD と SATA HDD で リアサインの場所が違うことを知らない人たちがストレージ集合体を作ると、普通の使い方で1年半でデータを飛ばす。 金融系ストレージはバックアップにはSATAを使うが、それでも1年半で全品交換している。HDDメーカからすれば、それが仕様。

2012-01-08 02:50:31
sugipooh @sugipooh

SCSI HDDには共振センサが付いている。RAIDを製造して苦しむのが VCCI対策。同じ水晶クロック製品を並べて使うので漏えい電波強度が高くなる。 同様にHDDモータが筐体構造によって共振する。これは致命傷になるので センサが付いている。SATAドライブには付いてない。

2012-01-08 02:55:20
sugipooh @sugipooh

サーバをたくさん使っていると HDD故障も多い。しかしちゃんと統計を取ると どんなアプリでどんなエラーが多いか?わかる。 メールサーバにSATAを使ってはいけないことに気がつく。 HDDメーカに文句言っても何も答えない。そんな使い方は想定していない。 ごねるとSASを使えという

2012-01-08 02:57:46
sugipooh @sugipooh

2年前京都のレンサバさんのサーバ引越しの時、2.5インチSATAを200台購入して全部エージングした。なんと5%を超える不良率。すべてメーカー梱包で私がアルミ袋を開けてやった。10数台はメーカに引き取ってもらった。その後RAIDカードのファームでエラー続出、大変だったわ。

2012-01-08 03:01:38
sugipooh @sugipooh

SATA HDDは大量に購入すると 機種により サーバとして使うと不良品としてしか思えないのが3%ぐらいは入っている。SASは高価なので、そんなモノは入っていない。私はHDD卸に購入条件として購入後ただちにエージングして不良品は返品するとしてHDDを買う。普通そんな条件は無い

2012-01-08 03:05:13
sugipooh @sugipooh

エージングの方法は HDD構造がわかると簡単に思いつく。 手間がかかる。その手間を1000台ぐらいのオーダーなら HDDメーカは受けてくれる。「サーバ用SATA HDD」を出荷 してくれる。

2012-01-08 03:07:12
sugipooh @sugipooh

サーバで使うとエラーがばんばん出るHDDを3台以上使って集合ストレージを組むと半年も持たない。事前に筐体強度、HDD冷却、工場からのHDD選別、これらをちゃんとこなして はじめてOSSの安全機能が効く。

2012-01-08 03:10:20
田中邦裕@さくらインターネット社長🐈‍⬛🐕 @kunihirotanaka

@sugipooh HDD卸によっても全然違いますよね。デスクトップ用とサーバ用では全く信頼性が違うのは当然として、サーバ用でも結構ばらつきあります。

2012-01-08 03:12:58
sugipooh @sugipooh

今は亡きサンマイクロ。サーバ専業といいながらHDD設計はおそまつだった。 10年ほど前、HDD故障を減らすために 良かれと思ったのでしょう マウンタに クッションを付けた。でも それはRAIDを作った経験が悲惨な結果を呼ぶ。 そのころからサンマシン評価は下がってゆく。

2012-01-08 03:13:12
sugipooh @sugipooh

@kunihirotanaka そうですよ、台数をまとめて工場がXX用とか認識するとちゃんと検査レベルを上げて納入してきます。交渉大変ですけど。FSVのNECブレードには富士通工場からSCSIHDD買っていました。RAID使わなくてもエラー少ない。

2012-01-08 03:16:44
sugipooh @sugipooh

スマートコマンドで HDDのデフェクト差分を監視するのは 故障予知につながるけど、最近のストレージOSSには装備されていない様子。先輩の苦労を無視しているように思える。RAIDカードでもカードを超えてスマートを観れないカードが多い。 LSI社はわかっているので、HP以外はLSI

2012-01-08 03:21:00
sugipooh @sugipooh

HPのRAIDカードは SASを使うのが前提のような設計をしている。 情報システムの方々が使うサーバと 大量に安価なサーバを使う場合のノウハウ違いを安易に考えている人たちが多い。HPサーバって、がんがん使って発熱するHDDちゃんと冷えるのかな?冷えないと思うけどなぁ~。

2012-01-08 03:27:02
sugipooh @sugipooh

DELLに押されて DELの価格にHPが負けているというのは 勘違い。 DELLの製品が良くなっていることを知らない。どうみてもDELLにHP製品は勝てない。DELLも電源で大量リコールしていたけど そのあとが良いねぇ

2012-01-08 03:30:08