2021年12月29日

【エンジニアの悪夢】日本HPE、京大スパコンのデータ77TBをLOST、全面謝罪▶理由を読んだ皆さん「インタプリタ怖い」「胃が痛くなる」

これは怖い…。自分現役の頃、Backupは世代管理してたけどなぁ。最近はやらないのかな…。 余談:実はtogetterも排他処理がないので同じまとめに対してうっかり複数編集窓を開いて変な上書きすることが…^^;
99
緑のマグカップ @Aktgus

> この度のファイル消失は 100% 弊社の責であると考えており、補償につきましては、ユーザ 様、並びに、貴学のご意向に沿うようにいたします。 iimc.kyoto-u.ac.jp/services/comp/… こんなお詫びの文章初めて見た…… 77TB削除、29TBが復元不可能……

2021-12-29 00:48:10
あなりずむ @ikoan_mik

iimc.kyoto-u.ac.jp/services/comp/… 朝から見るだけで気絶するようなお詫びを見ている

2021-12-29 07:34:37
あーるし @arusi0

京都大学の大事なデータ77TBをぶっ壊した責任でHPが大学の言い値で保証すると発表した話 iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 10:22:22
Ayako @o_ayako21

クライアント(京大)の怒り具合も半端ないけどベンダー(HP)の全面降伏は中々見ないな。。。事象については他人事ではない。。。((((;゚Д゚))))ガクガクブルブル iimc.kyoto-u.ac.jp/ja/whatsnew/in… iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 10:46:11
Ayako @o_ayako21

"(京大)確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です." これがHPへの温情なのか違うのか、期間的には温情に見えるけど、、、

2021-12-29 10:50:20
DD @ASTRAL_UNIT

弊社 100%の責任って事は手順の承認とかは無かったってことなのかな?それとも手順道理にやってなかったのかな?「実行中のスクリプトが存在している状態でスクリプトの上書きによりリリース」ってなぜそんな事を?ちなみに77TBが消えたけど、そのうちの28Tが復元不可っぽい iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 11:15:29
かた@夫婦で資産運用を楽しく考えていく @katayamakabsen

京大スパコンのデータ吹き飛ばした件。 全然当事者でもないのに、最初の2行読んだだけでも血の気が引いた😨 たったひとつのミスや、引数違うだけでも大惨事になるもんね。分かりみがすごくて… 運用チームの心身を案じつつ、再発防止策が問われますね… iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 11:01:57
ぬっきーさん☃️ @poponuki

シェルスクリプトをデプロイしたら実行中で、変数が初期化されずに全部消しましたってやつか😇 似たようなこと、2、3年前に昔やったなぁ😇 タマヒュンする😇 iimc.kyoto-u.ac.jp/services/comp/…

2021-12-28 23:59:58
MW岩井𓅱 @mwiwai

@mayakane これ、学校のサーバにしか保存していない卒論とかあったらどうするのかと、他人事ながらガクブルします。 システム担当者は辞表を書くレベルですね…

2021-12-29 08:51:17
カイトマン🪁 @duf88logbook

ヒューレッドパッカードさん、バックアップスクリプトでやらかしたのか。 京都大学で3,400万ファイル以上の消失。何億円の損失だろう。 でも民間企業だからプールの水道代みたいに個人に損害賠償はさせないだろうな。 iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 07:53:21
山田 村人A🍤🎲 @moribito_1

京大でデータ全部吹っ飛ばすとかいう大やらかしが起きたらしい 自分でもrmする時には爆弾処理と同じくらいの緊張感があるので自分の身にも起こりそうで怖すぎる iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 00:17:16
マルマ因 @Zinsei_Syuuryou

だ、大事件ですやんけ……。 (京都大学にて約77TBが過失により消失したとのこと。) 僕が担当者だったら、うんこ全部出して気絶しとるわ! そのあと無断で退職して失踪、最寄りのサービスエリアで号泣しとるわ! twitter.com/nahcnuj/status… pic.twitter.com/Xaf4RfkKvX

2021-12-28 22:16:57
拡大
拡大
GAM @gam_er

やばーい しかし復元不能な分はどうしたってどうしょうもないから、震えて年をこすしかないな iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 09:03:26
みれい @i0e__m

Lustre ファイルシステムのファイル消失について iimc.kyoto-u.ac.jp/services/comp/… 担当者が年を越せなさそうな案件だ……

2021-12-29 10:51:46

シェルスクリプトって扱いが雑なとこ多いよね

malco @bla3kenamel2

恐ろしすぎる… シェルスクリプトが、ではなく、実行中にファイル上書しちゃうかね… iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 10:41:59
S @bootedpuss

@Zinsei_Syuuryou あーあ。シェルスクリプトってテストなしでリリースされる風潮がある気がする。

2021-12-29 02:14:02
〜蒼〜💉💉 @alka_line

77TB lost…。他の人も言及してたけど、シェルスクリプトって扱い雑なこと多いよね。今回は途中上書きらしいけど… iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 10:15:42
Jun Furuse 🐫🌴 @camloeba

iimc.kyoto-u.ac.jp/services/comp/… ああー、これで実行中の bash スクリプトを変更する話が出ていたのね。何回か出会ったことある...

2021-12-29 09:50:12
よこお @takyokoo

そんなつもりなかったかもしれないけど、 実行中のスクリプト書き換えるのってエンジニア本能的に怖くないんかな iimc.kyoto-u.ac.jp/services/comp/…

2021-12-29 08:57:15
残りを読む(118)

コメント

夢乃 @iamdreamers 2021年12月29日
先頭の二つのリンク、開けないです・・・( × iimc.kyoto-u.ac.jp → ○ www.iimc.kyoto-u.ac.jp )
0
Cook⚡低浮上だけど元気です。 @CookDrake 2021年12月29日
iamdreamers ありゃ、ミスってましたか。ご報告ありがとうございます。すぐ対処します。
0
SAKURA87🌸多摩停督 @Sakura87_net 2021年12月29日
確かWindowsのバッチファイルも同じだったはずなのでWindows環境でも注意が必要よ。
9
Cook⚡低浮上だけど元気です。 @CookDrake 2021年12月29日
まとめを更新しました。リンク修正しました。PDFが上手く表示できないのでArchivesに暫定でつないでいます。
0
Cook⚡低浮上だけど元気です。 @CookDrake 2021年12月29日
念の為、生のリンク(短縮の方)貼っときます。 [スーパーコンピュータシステムのファイル消失のお詫び](https://is.gd/jnXvrR)(京都大学学術情報メディアセンター)2021年12月28日 [PDF][ Lustre ファイルシステムのファイル消失について](https://is.gd/M9xNz0) 日本ヒューレット・パッカード合同会社 2021年12月28日
1
夢乃 @iamdreamers 2021年12月29日
これ、年明けに「ウチのシステムでは問題ないのか?」って調べさせられそうな気がする。問い合わせてくるお客さんもいそうな気がする・・・
12
セバスチャン小林(裏) @Dongpo_Jushi_x 2021年12月29日
@CookDrake タイトルに誤りがありますので訂正をお願いします。現在「日本HP」と「日本ヒューレット・パッカード」は同一の会社ではありません(「HP」≠「ヒューレット・パッカードの略」)。「日本HP」はPC、プリンタを製造、販売している会社であり、業務用ITシステムの販売はしておりません。「日本ヒューレット・パッカード」の略称としては「HPE」が一般的です。
15
セバスチャン小林(裏) @Dongpo_Jushi_x 2021年12月29日
HPが分社化してもう何年も経つのに、サーバ売ってる会社を「HP」と言う奴多すぎて困る。このまとめのタイトル見て「なんでPCが何テラバイトもデータロストできるんだ?」って思ったし。
5
セバスチャン小林(裏) @Dongpo_Jushi_x 2021年12月29日
まあ、一番困ってるのはHP/HPE社員だろうし、そもそも何でHPとHPEに分社化したのかがわけがわからんのだけどな。PC、プリンタが儲かってたのに対してサーバ、ストレージの不調が足を引っ張ってたから、らしいが。
5
ばしにぃ @hiro_orso_viola 2021年12月29日
シェル変数の初期化(定義漏れ回避)やfindコマンドの使い方の未熟さも要因だとは思うけど…これ半分はシステム運用の問題でしょう。 動いてる可能性があるリソースをリリースして上書きするなんてシステム更改手順の不備としか思えませんよ。
3
いくら @YamadaIkra 2021年12月29日
ちょうど今10年ぶりにインストールしたLinuxのバックアップ用スクリプト書いてて、タマがヒュンとした。そんで見直したらバックアップ全消しにつながるバグを見つけた。
21
Cook⚡低浮上だけど元気です。 @CookDrake 2021年12月29日
Dongpo_Jushi_x おっと、しくじった!ご指摘ありがとうございます。訂正してきます。
1
Cook⚡低浮上だけど元気です。 @CookDrake 2021年12月29日
まとめを更新しました。タイトルのミス訂正しました。ご指摘ありがとうございます。
5
trycatch777 @trycatch777 2021年12月29日
シェルスクリプトをリリースするのに対象スクリプトが動いてるかどうか確認しなかったという話なのか、それとも違うのだろうか…
1
alan smithee @alansmithy2010 2021年12月29日
trycatch777 走ってるシェルスクリプトが上書きされた場合の挙動がこうなると予測出来なかったというのが正確なところかなと
12
chord @chord_380 2021年12月29日
実行中のシェルスクリプトのファイルって排他制御されてないのか……
4
ぴかっ太 @Pikatta 2021年12月29日
運用は、ちゃんとやってても誰も褒めてくれないし、ちょっとでもミスするとガン詰めされる辛すぎる立場なのよ。 ちゃんとした資料もねぇのにふざけんなよwww
12
Cook⚡低浮上だけど元気です。 @CookDrake 2021年12月29日
Pikatta わかりみが深い。渡された仕様書が古すぎて現状が似ても似つかない物になっていて…って経験あるよ。
6
結城真@社内秘 @shinokiwa 2021年12月29日
シェルスクリプトの仕様が怖いみたいなツイートあるけど、そもそも修正対象のものが動作している最中に修正版デプロイやること自体が、言語や環境関係なく怖いわ。
15
結城真@社内秘 @shinokiwa 2021年12月29日
しかし意外とシェルスクリプトやバッチが逐次読み込みなの知らない人って多いんやなって思ったけど、考えてみたら私も偶然の操作ミスで知ってた事で、誰かから教わったものではないな…。
8
結城真@社内秘 @shinokiwa 2021年12月29日
ファイル書き換えでなくても、後ろで動かしてる最中にスクリプトが使用してる環境変数とか書き換えるとリアルタイムで反映されるので、ゲームのメモリ書き換えチートやってるような楽しさがある(楽しくはない)
0
たけし🐕 @takeshi17922255 2021年12月29日
shinokiwa 普通の人は、実行中に書き換えることができるほど処理時間のかかるスクリプト書くこと自体がまれなんじゃないかとw
7
くじら @kujira_desu 2021年12月30日
シェルスクリプトもテストしてリリースしてると思うけど、テスト環境ではタイミング的に発生しなかったのか、発生してるのに検知できなかったのか。 これを抱えた年末年始はつらい。。。
3
Denullpo S. Hammerson @denullpo 2021年12月30日
まだ稼働中なのに自動更新機能が容赦なく上書きにきた系?
1
たけし🐕 @takeshi17922255 2021年12月30日
kujira_desu スクリプトにバグがあったとかそういう問題ではないんでテストでどうこうって話じゃなく
4
くじら @kujira_desu 2021年12月30日
takeshi17922255 単体テストや結合テストは済んでる前提です。教科書に載ってる理想的な状況なら「テスト環境にリリースしたら予期せぬファイルが削除されたので、上書き前にジョブを停止するようリリース手順を変更するか、別ジョブとしてリリースして既存ジョブを廃止するよう設計変更するか」となったはず。テスト環境ではなく、ステージング環境と言うのかな?
0
わさわさ! @wasa__wasa 2021年12月30日
あーーHPEのストレージ不具合かー、俺も前に食らってからはHPEのストレージは選定から外したったわwww って思ったら原因はハードでは無くシェルスクリプトだと‥‥‥ 実行中の処理が動いてるところに関連スクリプト上書きっていう時点で恐ろしくてまずそういう発想が出てこないのだが‥‥‥とは言えこれは他山の石とせねば。
1
結城真@社内秘 @shinokiwa 2021年12月30日
takeshi17922255 私そのうえで止め忘れて書き換えましたからね。さらに稀ですね。ちなみに開発時なので特になんかの被害があったわけでもないです。
1
結城真@社内秘 @shinokiwa 2021年12月30日
kujira_desu 事前に検知できるとしたら、テストフェーズよりもリリースリハーサルのフェーズですね。
4
Cook⚡低浮上だけど元気です。 @CookDrake 2022年1月1日
まとめを更新しました。巻末にPiro/結城洋志さんの解説連ツイを追加しました。
0
Ad_Meyer@Modernizedx3🇺🇦 @MCEscher68 2022年1月4日
学術用スパコンなんだから、下手に助平心起こして無停止保守に走るより、計画的に保守ダウンタイムを確保してメンテする事をルールに下方が良いのでは? 逆に無停止保守を全面禁止にするのが、確実な再発防止策かと思います。
1
順三朗 @junzabroP 2022年1月5日
バグの発生機序としてはシェルスクリプトの挙動ということでいいんだろうけど、そもそもバックアップ対象のストレージで事前にスナップショットを取ってからバックアップをかけてればこんな馬鹿なことにはならなかったはず。(ボリュームのスナップショットを取れば削除したファイルについてもスナップショットを取った時点のファイルとしては読める)
0
順三朗 @junzabroP 2022年1月5日
手元のFreeBSD機で確認したけど、zfsのsnapshot機能を使えば、スナップショットを取った後にファイルを削除しても、スナップショットの中を見ればスナップショット時点でのファイルは正常に読めるね。やはり日本ヒューレット・パッカード側の準備不足だよ。
0