RAIDを組んでいたとして、夜間に1本壊れた時の対応

「もう一本があるので、明日の朝に交換しよう」と 「もう一本壊れるとシステムが止まるから、すぐに交換しよう」で、 どれくらい辛いシステムをくぐってきたか解るような気がする。
2
Takuro SASAKI @dkfj

RAIDを組んでいたとして、夜間に1本壊れた時の対応。 「もう一本があるので、明日の朝に交換しよう」 と 「もう一本壊れるとシステムが止まるから、すぐに交換しよう」 で、 どれくらい辛いシステムをくぐってきたか解るような気がする。

2021-10-09 23:54:03
Takuro SASAKI @dkfj

ちなみに今のクラウドネイティブな人たちは、サーバー1台止まってシステムが止まるのという感覚の人の方が多いような気がする。 オンプレでも冗長化するのだけど、コストの関係で1台しかないとか、そもそも冗長化しづらいバッチサーバーとかがあったりする

2021-10-09 23:55:16
やま・ざっきー@DXエスコーター @ymzakky

@dkfj Y1という某センタでエンジニア時代を過ごした私は間違いなく後者を選びます。

2021-10-10 00:01:21
Takuro SASAKI @dkfj

@ymzakky たぶん、このツイートに反応する人は後者の人だけのような気がしています。前者の人は、何言っているのと気にも止めないw

2021-10-10 00:04:20
やま・ざっきー@DXエスコーター @ymzakky

@dkfj 確かに(笑) 共有ディスク(RAID5)で一本飛んで、リビルト終わる前に、もう一本飛ぶというプロジェクトもありました。 (確かその時は共有ディスクも二重化していたので最悪の自体は回避していたような)

2021-10-10 00:10:44
Takuro SASAKI @dkfj

@ymzakky 同じロットのHDDは同時期に壊れやすいから、ずらせとかもありました。ただ、そんなの言われても、どうしたら良いのと思ったことも。 実際、1台壊れると負荷がかかるのか同時に壊れる事が多いような気がしますね

2021-10-10 00:13:02

 

Nat Sakimura/崎村夏彦 @_nat

@dkfj @ymzakky コントローラが実は微妙に故障してましたとかあったなぁ

2021-10-10 00:23:43
SAKON @sakon310

@_nat @dkfj @ymzakky センター常駐のベンダーエンジニアに電話して即交換でしたね。保守部品も置いてありました。

2021-10-10 00:33:25
せとじ @tossi_104

@sakon310 @_nat @dkfj @ymzakky 同ロット、コントローラー障害、半死に、、、、破棄証明、、、ストレージ系は本当に思い出がたくさん\(^o^)/

2021-10-10 09:15:06
ノ貫 @he_chi_ka_n

@dkfj 自分でセンターに行って交換するわけでもなく、メーカーのCEさんが交換するのに24-365の契約があるなら前者にする選択肢が考えられない。 契約上、9時-17時とかなら仕方なく前者だけどそれはシステムの特性でシステム構築時に決まってる話。

2021-10-10 09:16:08
Hiroshi Matsumura @hmatsumu

@dkfj この辺りは規模との兼ね合いが大きいかもしれないですね。Erasure Codingを使ってパリティを6個くらい使えば、5年間の運用期間故障は放置しておけばいいというような啓蒙活動をずいぶんやってきましたが、蓋を開けてみたら日本国内だとその運用に耐える規模のユーザーがほとんどいなかったです。

2021-10-10 10:34:42
rero @rero_carnelian

@hmatsumu @dkfj RAID 6でもパリティ計算用のハード機能とか無いと実用的な性能が出なかった気がするけど、パリティ6個も計算して実用的な性能出るの?

2021-10-11 08:56:55
Hiroshi Matsumura @hmatsumu

@rero_carnelian @dkfj SkylakeのXeon 1 core 2.5GHzのパリティの計算性能で以下のような感じです。ローカルのRAID5/6であればNVMe5~6本分の帯域は確保でき、EC10/4だと半分くらいまで落ちますが、それでも40GbEx2の帯域を埋められます。サービスに取り込むと当然落ちますが、 結構実用で使えます。01.org/sites/default/… pic.twitter.com/AuMvCctutz

2021-10-11 11:21:10
拡大

 

あなもぐら @moggwai1

@dkfj 見つけたら即保守に連絡しろ わいの環境

2021-10-10 11:37:44
YOUG 〜無駄な努力の人〜 @YOUG_XX

@dkfj 壊れる時は集中する まさかと思ってたとこに限っておきる というのはあるあるですね 余裕ない状況だと追加でなんかあったとか責任取れないので速攻修理ですね

2021-10-10 13:48:14
測り屋 @tomoya1969

@dkfj FF外からですが… すぐさま交換に向かうが 向かっている途中に到着するまで頑張れ!と心の中でサーバーを応援したりしてます。

2021-10-10 15:24:09
A.KND @narratage_aknd

@dkfj 冗長しているネットワークで、LinkDown/Upが’瞬間発生しただけで夜中に呼び出されるシステムを面倒みていた私が通ります。。

2021-10-10 16:31:02
K.Namba/(お菓子|おやつ)エバンジェリストDX🍩 @ipv6labs

@dkfj 突発の作業も面倒なので、基本スペア付か3重ミラーですね。 時間に余裕を持てるのはとても大事。

2021-10-10 16:53:44
ライチュウ @DeDeNen1

@ipv6labs @dkfj 残念ながらその場合は夜間に2本壊れます。

2021-10-11 07:27:01
こえるん/coelun @coelun_civ

@DeDeNen1 それなら保守員移動中に全部壊れるからへーきへーき

2021-10-11 07:58:52

 

@wanwanbawbaw

@dkfj 仮組でもいいからその辺にあるフォーマット済民生品ぶち込まれるヤツ そしてその事を忘れると二次災害

2021-10-10 17:30:17