良くまぁ、こんな短時間でここまで原因詰めて復旧してるなぁ。/ ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」

本番と同じ検証環境が確保されていたのが幸い。素晴らしい。見習いたいです。
19
上原 哲太郎/Tetsu. Uehara @tetsutalow

良くまぁ、こんな短時間でここまで原因詰めて復旧してるなぁ。本番と同じ検証環境が確保されていたのが幸い。素晴らしい。見習いたいです。 / “ニュース - ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバ…” htn.to/9Le1xGk

2016-03-31 09:21:39
リンク ITpro ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン 全日本空輸(ANA)は2016年3月30日、3月22日に発生した国内線システムの不具合について、原因や再発防止策などを公表した。国内線システムの4台のデータベース(DB)サーバーをつなぐ米シスコシステムズ製イーサネットスイッチの故障が原因だった。
上原 哲太郎/Tetsu. Uehara @tetsutalow

バグ復旧には色々思い出があるが、最悪なのは和歌山大にいた頃、IRIXのxfsのバグ踏んで全ユーザの/homeが入ったパーティションがマウントできなくなった事件だな。72時間連続復旧作業しましたよ。最後は現場でカーネルデバッグする羽目に。最後スコンとマウント出来た時は泣けた。

2016-03-31 09:34:37
上原 哲太郎/Tetsu. Uehara @tetsutalow

作業は私とFEの2人でやってたのだけど、FEの人はコード読めないからツール使うしかない。私は泊まり込んで夜中ずっと本社にメールして教えてもらいながらコード追ってた。でも3日目にFEさんがツールの組み合わせでバグ避けられることを発見(笑)私の苦労は!でもデバッグに貢献したから良し。

2016-03-31 09:59:30