NAIST停電

停電でデータが飛んだ
59
hayato maki @mkhyt

停電したああああああああああああああ

2017-07-26 03:45:44
Yusuke Oda @odashi_t

実験データ飛んだかも

2017-07-26 03:58:05
hayato maki @mkhyt

小規模計算機サーバで回してた計算はお亡くなりになった

2017-07-26 03:59:09
hayato maki @mkhyt

ほぼ大学の敷地内に落ちてたっぽい pic.twitter.com/llH2TvBK95

2017-07-26 04:06:30
拡大
Yusuke Oda @odashi_t

実験データが飛んだので論文が遅れます

2017-07-26 04:07:40
Yusuke Oda @odashi_t

論文のデータが死んで_(:3 」∠ )_になってる

2017-07-26 04:22:03
丸の内電気鼠 @caesar_wanya

各研究室の教員が続々とサーバ室に集結している

2017-07-26 09:22:16
Yusuke Oda @odashi_t

データサーバがやられたらしい。

2017-07-26 14:05:52
Yusuke Oda @odashi_t

最近GPU回してやった実験が全部とんでる。ジャーナル終わった

2017-07-26 14:30:34
Yusuke Oda @odashi_t

学会にお詫びメール書いてる

2017-07-26 14:41:37
Yusuke Oda @odashi_t

思った以上に深刻だった(他の学生の報告) pic.twitter.com/8sgecJ3wOu

2017-07-26 15:03:17
拡大
Yusuke Oda @odashi_t

投稿していたジャーナルは諦めて(もう一回実験しなおして、最悪再投稿)別の実験します。

2017-07-26 15:10:13
Yusuke Oda @odashi_t

涙も出てこないけど、とりあえず1000GPU時間返してほしい

2017-07-26 15:20:40
Yusuke Oda @odashi_t

1000で済まない気がする…

2017-07-26 15:22:26
Yusuke Oda @odashi_t

僕の論文はいいが、1000時間超GPUを動かした電気代はパアだな

2017-07-26 15:23:22
Yusuke Oda @odashi_t

今「復旧の目処が分からず、最悪2か月のデータが飛びます」と学会に報告したんだけど、メール送った後のタイミングでピカチュウ先生から「完全消滅です」という報告を貰いました。ありがとうございます。

2017-07-26 15:34:48
丸の内電気鼠 @caesar_wanya

ここ数年で一番のつらみかもしれない(ディスクが壊れて交換後RAID再構築中のサーバが雷で落ちてデータが2か月分飛んだ)

2017-07-26 15:39:42
Yusuke Oda @odashi_t

NAIST5年目にして一番やる気なくした。

2017-07-26 15:44:10
丸の内電気鼠 @caesar_wanya

RAIDは運用の冗長化であってバックアップとしては役に立たないというのがよくわかるな

2017-07-26 15:45:20
残りを読む(9)

コメント

そむにうむ☆めぐるーまー@森山弘樹 「VxR3Dホビー研究会」主宰 @Somnium 2017年7月26日
NAISTと聞くとナイトストライカーをつい思い出してしまいます。(^^;)
1
あっきぃ。@いろいろつぶやくやつ @akkiy_ya 2017年7月26日
落ちた場所がとてもよろしくない・・・。
0
toge365 @toge365 2017年7月26日
奈良やったんか。いずれにしても、日本弱すぎ。使えん。
0
空缶 @AkikanPHP 2017年7月27日
わーお。出社したらバックアップ確認しよう。
0
Tadahiro Ishisaka🖖 @ishisaka 2017年7月27日
そもそもなんでUPS付いていないの?
10
Tadahiro Ishisaka🖖 @ishisaka 2017年7月27日
マーフィーの法則じゃなくて、単純にやることをやっていない。
3
Ikunao Sugiyama @Dursan 2017年7月27日
鹿がケーブルをかじったのかと思った
1
SAKURA87@多摩丙丁督 @Sakura87_net 2017年7月27日
どんなに対策しても止まるときは止まるし、UPSだって万能じゃないわけだから…。
8
Earwax @Earwax97409510 2017年7月27日
ホームユースだと割と万能感有りますよね>UPS。 運用ミスというかぶら下げ過ぎを放置してたんじゃないかと思ったけどどうだろう。UPS自体がイカれてたとしたらそれはそれで地獄
2
親知らず @Boeq 2017年7月27日
毎日テープドライブにバックアップが大正義やね
1
Earwax @Earwax97409510 2017年7月27日
バックアップ方式もコストとの兼ね合いですよ。こんなに手間と容量食うなら2ヶ月分くらいスパッと諦める!という選択も採る時は採ります。 # その実務担当者の徒労感はパネェですが
0
エリ・エリ・レマ・サンバディトゥナイ @mtoaki 2017年7月27日
そりゃまぁ好きに金と人が使えるなら割と理想に近いこともできるだろうけど、コストは青天井だし正常に動いてるうちは全く意味ないしなかなか難しかろう。出来る事はやってたけど運が悪かった。のでは。
2
BABA Motoharu @calc3 2017年7月27日
RAID再構築中に落雷で停電してディスク死亡…
1
アルビレオ@炙りカルビ @albireo_B 2017年7月27日
UPSは基本的に「停電時などでも稼動させておく」であって「それまでのデータが飛ばないようにする」ならバックアップ。データさえ残れば稼動の維持は必須ではない。この場合だとUPSでも効果はあったろうけどそれは結果論。まとめ内に「RAIDはバックアップのかわりにはならない」という話があるように、UPSもバックアップのかわりにはなりません
10
エリ・エリ・レマ・サンバディトゥナイ @mtoaki 2017年7月27日
UPSも「安全にシャットダウンするための数分の猶予」が担保されるだけだし、RAID再構築中に作業をキャンセルして安全にシャットダウンできたかどうかはよくわからないな。
2
蒲田 典弘 @lets_skeptic 2017年7月27日
データ保全のためにはUPSでもRAIDでもなく、物理的な別媒体(そこらで売ってるUSB接続のHDDでもいい)へのバックアップをしましょうということです。
6
bun🍃 @bun3559 2017年7月27日
UPSの目的は停電(瞬停)対策。雷対策になるわけない。RAIDはストレージ故障でシステム停止したくないものに使うのが目的で(システム稼働の冗長性の確保が目的)、データ保全が目的じゃない。そしてバックアップは、24時間以内に前日の状態に戻せればよしとすべき。
4
むつぎはじめ @Six_D 2017年7月27日
なんだか知らんが胃が痛くなる話
0
上原 哲太郎/Tetsu. Uehara @tetsutalow 2017年7月27日
UPSあったってなぁ、雷のサージでコントローラごと飛ぶことがあるんやで!(経験者)
6
琥珀@沼温か稲荷 @amber_violane 2017年7月27日
怪談物語やめーや。背筋が凍るなんてレベルじゃねーよ
1
すぎむら @sugitk 2017年7月27日
お気の毒だ。。山奥だからなぁ。避雷針とかいろんな対策はあると思うんだけど、なんでもかんでも避けられるということではないんだね。
1
jpnemp @jpnemp 2017年7月27日
albireo_B UPSは「停電時にシャットダウンまでの時間を稼ぐもの」であって、そのまま稼動させておくことは考えちゃダメですよー。今回の場合だと長時間(と言っても数分程度)の停電時には自動でシャットダウンする仕組みにしておけば、計算中のデータは破棄されても、少なくともRAIDのリビルドに失敗することはなかったはず(コントローラーごと吹っ飛んだらダメですが)。もちろんバックアップが一番大事なのはその通りですね……(自戒)
4
ayaqui@キュニコス派 @aya_qui 2017年7月27日
バックアップは同じ場所にあったらダメです遠隔にしましょう、RAIDはバックアップじゃありません両方壊れる事ありますと言ってもなぜかRAIDに操を立てる人が多いんだよなあ。
2
fukken @fukken 2017年7月27日
RAID組んでたら慢心する気持ちは分からんでもないし、「バックアップしとくべきだった」なんて当人も言われる前から承知しているのだから、別にみんなで追撃しなくとも。人事を尽くしたとは言い難いが、相当な不運であった事は確かだし、まぁご愁傷様です。
3
Aki @Aki_8ara 2017年7月27日
キャンパス内に落雷か。。直撃は火を噴かなかっただけマシな世界だからなあ。
2
統一教会の星 @cpw73XfxIvDa3X 2017年7月27日
これが日本の最先端科学技術www
1
丸の内電気鼠 @caesar_wanya 2017年7月27日
なんかバズってるようなので正しい情報を補足しますが、基盤システムは問題なく1研究室が運用している実験サーバ用ストレージが飛んだという話です。UPSは付いていましたが停電期間が長かったのでRAIDのリビルドが終わるのに足らず、結果として取ってあった2ヶ月前のスナップショットに戻ったということです
6
× (゚∀゚ ))))∈ @cv45ValleyForge 2017年7月27日
毎日のバックアップも出来ないような大容量研究データって想像が付かない。
1
× (゚∀゚ ))))∈ @cv45ValleyForge 2017年7月27日
毎日のバックアップも出来ないような無能研究員なら容易に想像が付く。
2
repunit @FlatSharp 2017年7月27日
クラークの三法則思い出すのと、UPSの容量選定は正しかったのかと言う疑問が
1
ゆんま@琴銀a.k.aラグマスおじさん @_yunma 2017年7月28日
ナイトストライカー……は置いといて、ビリビリガードの電源タップにUPSでも駄目となると、こういった事態に備えて非常用発電設備を大学側に提案するしかないだろうなぁ……。 証券会社とかだとビル施設とは別に独自で非常用発電設備を用意してたりするし。
0
アルビレオ@炙りカルビ @albireo_B 2017年7月28日
_yunma 大学内でも計算機センターのような施設ならともかく、研究室レベルで個別運用しているサーバーまでカバーする非常電源というのは非現実的だと思います
0
_ @wholescape 2017年7月28日
奈良先端大が出来た1990年代ならともかく、今の時代だと計算サーバを研究室単位で動かすのは不意の電源断等による際の損失を考えると非現実的、と表現することも出来るのではないでしょうか。計算機センター側でデータセンターハウジング的な事(冷却と電源の集中管理)をしたほうがよいのでは…
0