RAIDを組んでいたとして、夜間に1本壊れた時の対応
RAIDを組んでいたとして、夜間に1本壊れた時の対応。 「もう一本があるので、明日の朝に交換しよう」 と 「もう一本壊れるとシステムが止まるから、すぐに交換しよう」 で、 どれくらい辛いシステムをくぐってきたか解るような気がする。
2021-10-09 23:54:03ちなみに今のクラウドネイティブな人たちは、サーバー1台止まってシステムが止まるのという感覚の人の方が多いような気がする。 オンプレでも冗長化するのだけど、コストの関係で1台しかないとか、そもそも冗長化しづらいバッチサーバーとかがあったりする
2021-10-09 23:55:16@ymzakky たぶん、このツイートに反応する人は後者の人だけのような気がしています。前者の人は、何言っているのと気にも止めないw
2021-10-10 00:04:20@dkfj 確かに(笑) 共有ディスク(RAID5)で一本飛んで、リビルト終わる前に、もう一本飛ぶというプロジェクトもありました。 (確かその時は共有ディスクも二重化していたので最悪の自体は回避していたような)
2021-10-10 00:10:44@ymzakky 同じロットのHDDは同時期に壊れやすいから、ずらせとかもありました。ただ、そんなの言われても、どうしたら良いのと思ったことも。 実際、1台壊れると負荷がかかるのか同時に壊れる事が多いような気がしますね
2021-10-10 00:13:02
@_nat @dkfj @ymzakky センター常駐のベンダーエンジニアに電話して即交換でしたね。保守部品も置いてありました。
2021-10-10 00:33:25@sakon310 @_nat @dkfj @ymzakky 同ロット、コントローラー障害、半死に、、、、破棄証明、、、ストレージ系は本当に思い出がたくさん\(^o^)/
2021-10-10 09:15:06@dkfj 自分でセンターに行って交換するわけでもなく、メーカーのCEさんが交換するのに24-365の契約があるなら前者にする選択肢が考えられない。 契約上、9時-17時とかなら仕方なく前者だけどそれはシステムの特性でシステム構築時に決まってる話。
2021-10-10 09:16:08@dkfj この辺りは規模との兼ね合いが大きいかもしれないですね。Erasure Codingを使ってパリティを6個くらい使えば、5年間の運用期間故障は放置しておけばいいというような啓蒙活動をずいぶんやってきましたが、蓋を開けてみたら日本国内だとその運用に耐える規模のユーザーがほとんどいなかったです。
2021-10-10 10:34:42@hmatsumu @dkfj RAID 6でもパリティ計算用のハード機能とか無いと実用的な性能が出なかった気がするけど、パリティ6個も計算して実用的な性能出るの?
2021-10-11 08:56:55@rero_carnelian @dkfj SkylakeのXeon 1 core 2.5GHzのパリティの計算性能で以下のような感じです。ローカルのRAID5/6であればNVMe5~6本分の帯域は確保でき、EC10/4だと半分くらいまで落ちますが、それでも40GbEx2の帯域を埋められます。サービスに取り込むと当然落ちますが、 結構実用で使えます。01.org/sites/default/… pic.twitter.com/AuMvCctutz
2021-10-11 11:21:10
@dkfj 壊れる時は集中する まさかと思ってたとこに限っておきる というのはあるあるですね 余裕ない状況だと追加でなんかあったとか責任取れないので速攻修理ですね
2021-10-10 13:48:14@dkfj FF外からですが… すぐさま交換に向かうが 向かっている途中に到着するまで頑張れ!と心の中でサーバーを応援したりしてます。
2021-10-10 15:24:09@dkfj 冗長しているネットワークで、LinkDown/Upが’瞬間発生しただけで夜中に呼び出されるシステムを面倒みていた私が通ります。。
2021-10-10 16:31:02@dkfj 突発の作業も面倒なので、基本スペア付か3重ミラーですね。 時間に余裕を持てるのはとても大事。
2021-10-10 16:53:44