2021年10月11日

RAIDを組んでいたとして、夜間に１本壊れた時の対応

「もう一本があるので、明日の朝に交換しよう」と「もう一本壊れるとシステムが止まるから、すぐに交換しよう」で、どれくらい辛いシステムをくぐってきたか解るような気がする。

RAID 夜間サーバー保守交換システムクラウドスペアリビルド

MAROCKs
3811
8
5
1
0

Takuro SASAKI @dkfj

RAIDを組んでいたとして、夜間に１本壊れた時の対応。「もう一本があるので、明日の朝に交換しよう」と「もう一本壊れるとシステムが止まるから、すぐに交換しよう」で、どれくらい辛いシステムをくぐってきたか解るような気がする。

2021-10-09 23:54:03

Takuro SASAKI @dkfj

ちなみに今のクラウドネイティブな人たちは、サーバー１台止まってシステムが止まるのという感覚の人の方が多いような気がする。オンプレでも冗長化するのだけど、コストの関係で１台しかないとか、そもそも冗長化しづらいバッチサーバーとかがあったりする

2021-10-09 23:55:16

やま・ざっきー@DXエスコーター @ymzakky

@dkfj Ｙ１という某センタでエンジニア時代を過ごした私は間違いなく後者を選びます。

2021-10-10 00:01:21

Takuro SASAKI @dkfj

@ymzakky たぶん、このツイートに反応する人は後者の人だけのような気がしています。前者の人は、何言っているのと気にも止めないｗ

2021-10-10 00:04:20

やま・ざっきー@DXエスコーター @ymzakky

@dkfj 確かに(笑) 共有ディスク(RAID5)で一本飛んで、リビルト終わる前に、もう一本飛ぶというプロジェクトもありました。（確かその時は共有ディスクも二重化していたので最悪の自体は回避していたような）

2021-10-10 00:10:44

Takuro SASAKI @dkfj

@ymzakky 同じロットのHDDは同時期に壊れやすいから、ずらせとかもありました。ただ、そんなの言われても、どうしたら良いのと思ったことも。実際、１台壊れると負荷がかかるのか同時に壊れる事が多いような気がしますね

2021-10-10 00:13:02

Nat Sakimura/崎村夏彦 @_nat

@dkfj @ymzakky コントローラが実は微妙に故障してましたとかあったなぁ

2021-10-10 00:23:43

SAKON @sakon310

@_nat @dkfj @ymzakky センター常駐のベンダーエンジニアに電話して即交換でしたね。保守部品も置いてありました。

2021-10-10 00:33:25

せとじ @tossi_104

@sakon310 @_nat @dkfj @ymzakky 同ロット、コントローラー障害、半死に、、、、破棄証明、、、ストレージ系は本当に思い出がたくさん＼(^o^)／

2021-10-10 09:15:06

ノ貫 @he_chi_ka_n

@dkfj 自分でセンターに行って交換するわけでもなく、メーカーのCEさんが交換するのに24-365の契約があるなら前者にする選択肢が考えられない。契約上、9時-17時とかなら仕方なく前者だけどそれはシステムの特性でシステム構築時に決まってる話。

2021-10-10 09:16:08

Hiroshi Matsumura @hmatsumu

@dkfj この辺りは規模との兼ね合いが大きいかもしれないですね。Erasure Codingを使ってパリティを6個くらい使えば、5年間の運用期間故障は放置しておけばいいというような啓蒙活動をずいぶんやってきましたが、蓋を開けてみたら日本国内だとその運用に耐える規模のユーザーがほとんどいなかったです。

2021-10-10 10:34:42

rero @rero_carnelian

@hmatsumu @dkfj RAID 6でもパリティ計算用のハード機能とか無いと実用的な性能が出なかった気がするけど、パリティ6個も計算して実用的な性能出るの？

2021-10-11 08:56:55

Hiroshi Matsumura @hmatsumu

@rero_carnelian @dkfj SkylakeのXeon 1 core 2.5GHzのパリティの計算性能で以下のような感じです。ローカルのRAID5/6であればNVMe5~6本分の帯域は確保でき、EC10/4だと半分くらいまで落ちますが、それでも40GbEx2の帯域を埋められます。サービスに取り込むと当然落ちますが、結構実用で使えます。01.org/sites/default/… pic.twitter.com/AuMvCctutz