編集可能

ANAシステム障害の原因の発表を聞いたみなさんの反応まとめ

まとめました。 検索用 Catalyst 4948E
インターネット ANA IT
146
タモ㌠はコタツにこもってくださいっ😸 @tamosan
みてる:【お詫び】3月22日に発生した弊社の国内線システム不具合について - ANA SKY WEB ana.co.jp/asw/topinfo/in…
タモ㌠はコタツにこもってくださいっ😸 @tamosan
ANAの件、「中継器」側からの故障シグナルのみでフェイルオーバーするような仕組みだったのでしょうかねぇ だとすると設計考慮不足かと思いますよ(´・ω・`) 2点、3点での監視も必要でしょうねぇ(対策としてそれを実施したようすですが)
読売新聞社会部 @YOL_national
ANA障害、原因は中継機故障…社長ら報酬減額 j.mp/1MSfhch
Web猫 @webdevjp
今回もスイッチ?”4台あるサーバーをつなぐ機械が故障” > サーバーつなぐ機械故障 ANA大混乱の原因判明(テレビ朝日系(ANN)) - Yahoo!ニュース headlines.yahoo.co.jp/videonews/ann?… #Yahooニュース
TRAICY(トライシー) @traicycom
ANA、国内線システム障害の原因はネットワーク中継器の故障 役員報酬減額の処分 traicy.com/20160330-NHsys… pic.twitter.com/TJ51LsnoZe
拡大
--- @hdais
データセンタで石投げればC社の製品にあたるわけで、件の障害の原因がC社ということはあまり意味ないと思います。他社のでも起こり得る話だし
Web猫 @webdevjp
まれによくあるやつだ  “スイッチは完全に停止したわけではなく、「不安定ながらも動作していたようだ」 ”なぜ「故障シグナル」が発信できなかったかは分かっていない。” itpro.nikkeibp.co.jp/atcl/news/16/0…
日経 xTECH IT @nikkeibpITpro
ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン(ニュース) itpro.nikkeibp.co.jp/atcl/news/16/0… pic.twitter.com/RCkbFuOZRx
拡大
Web猫 @webdevjp
結構な再現率だな。世界初の割には。パラメータの組み合わせかな。 “スイッチの不具合を疑った。「本番環境と同等の作りにしてあるテスト環境にスイッチを持ち込んでテストしたところ、不具合が再現した」” itpro.nikkeibp.co.jp/atcl/news/16/0…
NV(*´ω`*) @nvsofts
ANAのシステム障害の件、記事読んでると中の人の苦悩が伝わってくる
さわでぃさん(清楚) @sawadyrr5
俺がCIOだったら「シスコのルータにも穴はあるんだね…ANAだけに」とか言って炎上させたと思う。
ほよたか @takahoyo
ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン itpro.nikkeibp.co.jp/atcl/news/16/0… 失礼かもしれないけど、ちょっとした機器の故障でシステムが止まって経営層も責任を取ることになる良い例かもしれない。やっぱり稼働率100%は難しい
cesia @cesia0712
世界初の障害とかだとメーカーサイドも手順持ってない事も多いから、ANAの対応はかなり凄いと思うにゃ。
hamadon @hamanoakki
まさかのCatalyst 4948Eが原因とわ。。半死の死に切らないスイッチほどトラシュをやっかいにするものはないので同情します…/ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン itpro.nikkeibp.co.jp/atcl/news/16/0… #ITpro
Kota Uenishi (๑•̀ㅂ•́)و✧ @kuenishi
“ANA、国内線システム障害の原因はネットワーク中継器の故障 役員報酬減額の処分 - トラベルメディア「Traicy(トライシー)」” htn.to/9eCjYD
Kota Uenishi (๑•̀ㅂ•́)و✧ @kuenishi
Network is reliable: 故障してたら故障シグナルなんて出せるわけねーだろ! / “【お詫び】3月22日に発生した弊社の国内線システム不具合について:ANA SKY WEB” htn.to/oo8hGTB
葛城真実(かつらぎまさみ) @masami_private
ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」で itpro.nikkeibp.co.jp/atcl/news/16/0… シスコでもバグあるのかという驚き(シスコ安全神話?)。そして、DBサーバーが停止した理由が、DBの同期が出来ない時は止まる仕様という、どんでん返し感。 興味深い
garmy @garmy
これ、大学の先輩の専門家によれば、OracleのDBでスケールさせるには同期が必須だという要件の割りにちょっと性能が低いスイッチングハブだそうで。あと10年前にもANA&Unisysは同様のレアなバグを引き当ててるそうで…orz twitter.com/masami_private…
✨私がういにゃんだ✨ @ui_nyan
かわいそう : ”ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン” itpro.nikkeibp.co.jp/atcl/news/16/0…
Coconut/りょう @CoconutRyo
@syuu1228 スイッチですね…Catalystです。意味不明な表現ですがニュースは… itpro.nikkeibp.co.jp/atcl/news/16/0…
イスラエルエリカちゃん @syuu1228
あ、いや、まてよ、ANAの説明がそもそも「中継器」なのだが ana.co.jp/asw/topinfo/in…
一ノ瀬 いろは @ichinose_iroha
ANA さん7年前は Catalyst の4事例しかないバグ踏み抜くし、今回は初の事例踏み抜くし、もう Cisco 使うの止めるしか無いのでは。
トデス子'\ @todesking
シスコの機械が謎の壊れ方をするとANA役員が減俸されてしまうの、厳しい気がする
二代目プログラミングヤクザ @stormcat24
一般社会からANAは叩かれてるかもしれないが、バグを踏み抜く面において我々は畏敬の念を忘れてはならない
桑山雅行 @kuwayamamasayuk
「本番環境と同等の作りにしてあるテスト環境」を持てるっていいなぁ。予算がないと,提案しても削られるん所なんだよね。 / ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン itpro.nikkeibp.co.jp/atcl/news/16/0… #ITpro
残りを読む(56)

コメント

ごごてぃ @gogotea3 2016年4月2日
まってwオチがぁあああw
なつよ( ¯•ω•¯ )インフラ女子の日常書籍化執筆中 @infragirl755 2016年4月2日
gogotea3 間違えてチェックしてしまって…修正済みです。ごごてぃーさん本当にごめんなさい(><)
佐渡災炎 @sadscient 2016年4月2日
スイッチのsilent failureとかシステム設計じゃどうにもならんような…
Hide Yamauchi @MC6809EOS9 2016年4月2日
こういう事例があるたびにOPS側の人たちはすごいと思う。
Dcdcxr @Dcdcxr 2016年4月2日
まとめにもあるけど、役員減俸ってなんで?役員会か何かで予算をケチる決定でもされたとか?
ふぇいる🌘 @fairoo 2016年4月2日
難しい問題なんだなって事だけはわかりました。(こなみかん
Dcdcxr @Dcdcxr 2016年4月2日
おそ松クラスタとか、なんか趣味的な集まりっぽいのにクラスタってつけるのはわかるんだけど、ここにまとめられてる人ってそれぞれ別々にANAの一件に関してつぶやいてるだけだよね?こうゆうのもクラスタっていうのかな?
tarosuke @tarosukenet 2016年4月2日
sadscient だからそいつ自身の報告なんて当てにせず実際にパケット投げあって監視するんじゃん。そもそもDBは異常判定したからこそ止まってるんだからある意味判定自体はされてたわけで...。
佐渡災炎 @sadscient 2016年4月2日
tarosukenet DB間ハートビートは当然常にやってるだろうが、それが途切れたからってスイッチの障害と特定するのは極めて難しいはず。経路上のサイレント障害なんて本質的にはアプリケーション層では識別できないんじゃねえかな。
tarosuke @tarosukenet 2016年4月2日
sadscient この話の根幹は「故障要素自体からの通知に基づく異常判定とフェイルオーバー」じゃないのか?
佐渡災炎 @sadscient 2016年4月2日
tarosukenet スイッチの故障をスイッチ以外が識別するのは難しいという話と別に矛盾しないと思うけど。
羽倉田 @wakurata 2016年4月2日
PDFをみると単にコストをケチって100Mで組んだのが悪かっただけなんじゃと、1Gでやってれば起きなかったような気がする。
羽倉田 @wakurata 2016年4月2日
要するに100Mの口に大量のデータ流し込まれてキャッシュオーバーフローしたってだけの話。キャッシュオーバーフローに対応してなかったのはバグだけどそんな組み方をした開発もおかしいわけで、だから責任者の首が飛んだってわけ。
tarosuke @tarosukenet 2016年4月2日
sadscient 少なくとも「この構成における故障箇所のサーバからの判定可能性」を論じてはいないんだが?君は常に「この構成」を前提にしてるみたいだけど。それとも構成の設計は「システム設計」には入らないとでも?
佐渡災炎 @sadscient 2016年4月2日
tarosukenet 「スイッチ以外でスイッチの故障を識別するのが困難」というのは機器の構成には依存しないよ。
tarosuke @tarosukenet 2016年4月2日
sadscient あんだけ繰り返してんのに無視してループかよw
佐渡災炎 @sadscient 2016年4月2日
tarosukenet 意味のないことを何万回繰り返しても意味を持つことはねえですよw
Chief Buster @chief_buster 2016年4月2日
スイッチの物理故障は検知が難しいとは言え、メモリ(RAM?システム用flash ROM?)故障は検知可能な筈だが... ECCすら付いて無かった? 規模に見合ったスイッチだったのだろうか?色々と疑問ばかり浮かんで、これだけの情報で判断するのは無理ですね。
ごごてぃ @gogotea3 2016年4月2日
この障害を技術側で改善するなら、対処は以下が想定されます。 ・ハートビート系のスイッチを2重化以上する(RACは4つまで可能) ・スイッチとサーバのパケットの監視 ・Oracleでスプリットブレインもしくは、ハートビート系エラーを重大エラーにする。
ごごてぃ @gogotea3 2016年4月2日
サーバ、OS、Oracleとスイッチ、ストレージを統合的に監視して、正常である閾値を決めるだけでっせ。 一つで完璧に決める必要はないよと
ナイアル @nyal013 2016年4月2日
「想定可能だったか」「妥当なコストで(ここを忘れがち)事前に代替できたか」「問題解決までの手順に不備はなかったか」、あたりで…これで責任取れと言われたら全世界のシステム屋さんが泣くよなあと
Aki @Aki_8ara 2016年4月2日
中途半端な故障って事は、通常のハートビートやPingチェック、ポートチェック、物理接続チェックについて「正常」って応答が戻ってきてた可能性もあるわけか。そうだとすると最初はサーバ側やソフト側を疑ったとしても不思議はないな。
イエーガー@ライファンも同じ名前でやってます @Jaeger75 2016年4月2日
役員減俸のアナウンスは末端ユーザーの溜飲を下げる為の物と思っていいだろ(決定が早過ぎるし)、金額も不明だし役員報酬なんて他で補填する方法はいくらでも有るしw 今の段階であれこれ言うのがそもそも時期尚早でしょ
パンダは肉食獣 @j_inbar 2016年4月2日
中の人、本当にお疲れ様です。
きゃっつ(Kats)⊿2/22乃木坂8thBDL @grayengineer 2016年4月2日
むかしクラスタソフトの開発やってたけど、運用で障害を検出できなかったときに、なぜ検出できないのかということを技術的にいくら細かく説明しても、顧客から「何のためのクラスただと思ってんだ」と強く非難されてしまってたのを思い出した。
きゃっつ(Kats)⊿2/22乃木坂8thBDL @grayengineer 2016年4月2日
たとえば運用系が動作しているかどうか、複数のLAN経由と共有ストレージ経由で監視しているのだけど、LANに障害が起きてしまうと相手サーバがダウンしたのか、サーバは生きてるけど通信ができてないのか、それじたいの判断ができなかったりする。ここらへんの考え方は一筋縄ではいかない
Takashi TERAUCHI(転職活動中) @takter 2016年4月3日
うーーん。同業としてはつらすぎる話だわ
V層もどき @desuga_NlkL5EiN 2016年4月3日
報道内容が事実であれば、残念ながら非機能部分での設計と総合テストあたりでのやらかしだよなあ……。
V層もどき @desuga_NlkL5EiN 2016年4月3日
ただ、どこまでやるか、っていうのはコスト見合いではあるんで、客と合意の上でテスト省略とか、レベル感の線引きしてたりすると、責任分担的にはもつれそうだし、既に瑕疵をいう時期ではないとなれば、客の役員らが責任取る形になるのは分からないではないかなあ。
RRR @rrrdtp 2016年4月3日
なんか全然わからないけどすごく感心した。という小学生のような感想でごめんなさい:
RRR @rrrdtp 2016年4月3日
全然わからないけどすごく感心した。という小学生のような感想でごめんなさい:
キタミアキヤ @K_akiya 2016年4月3日
CISCOのバグを踏み抜くあたりマーフィーの法則を感じる。
TOYODA Eizi @e_toyoda 2016年4月3日
ほんとに、この対応はよくできているとおもうんだけど、業務との連携というところかなあ
ラーメン二浪 @guroobarueriito 2016年4月3日
【悲報】ワイ素人、まったくわからない
mryo0826 @mryo0826 2016年4月3日
記事とか追っかけてるけど、検証環境に故障した機器を持ち込んだら再現したとか、持っていく時電源オフしただろうからハードリセットしても故障が残り続けるって、文字通りハードレイヤーでぶっ壊れるって一体どんな事になってたんだろう(;´Д`)
IzNoMa @i3works 2016年4月3日
ソフトウェアやハードウェアのバグなのか内部の電子デバイスの故障なのか、どっちなんでしょうね?
nekosencho @Neko_Sencho 2016年4月3日
まあ、意外なANAがあったということで
練馬産。🌗 @nerimasan 2016年4月3日
なるほど。役員の減棒も収拾つけるためにはやむなしって判断なんだろな。
パスカル @uiweo 2016年4月3日
一方アメリカでは、昨年の7月にユナイテッド航空が、9月にアメリカンエアラインが、10月にサウスウエスト航空とアレジアント航空が、似たようなしょうもない原因で大規模障害を発生させておきながら、どの航空会社も何の責任も取っていないのだった。
harinokotawashi @orangesystem 2016年4月3日
ANA運用陣の完璧な対応は、しかし一般には理解されないのだと思うと心が痛い。
亜山 雪 @ayamasets 2016年4月3日
いろいろと多方面にお気の毒としか言いようがない。
亜山 雪 @ayamasets 2016年4月3日
スイッチの故障を前提としたシステム構築なんて途方に暮れる。サーバールームに隕石が落ちた場合を想定せよ、くらいに難儀な要件だ。
へんなもの @hen_na_mono 2016年4月4日
この場合、異なるシステムで監視するくらいしかできないけどそれも無理だよねぇ・・・
mryo0826 @mryo0826 2016年4月4日
まとめとかに乗ってないけど、コレの対策としてDBサーバ側からルータに対してヘルスチェックを行う対処をしたとなっているけど、サーバ(アプリレイヤ)がネットワークに対して死活監視ってどれだけインフラを信用しないないねん!ってツッコミが(;´Д`)
nwoyoshi @nwoyoshi 2016年4月4日
1時間で復旧できたなら瑕疵にはならんと思うけどな。手作業での代替手段もあったみたいだし、ANAの損害賠償は無理筋だと思う。
taka @Vietnum 2016年4月5日
ANA=×アナ、○エイエヌエー : ANAL=×アナル、○エイナル
mishimaheihachi @mishimaheihachi 2016年4月5日
物理故障対策でスイッチをラダーで組んでいても「特定のパケットだけが通らない」とか「半死に」なんてよくある話しぢゃなw、普通はエンド間やミドルレンジでポーリングが必要なんだけど金かかるから削られたんかな~w、さてさてF5が何台売れるんだろうかw
広瀬みつこ⋈ 2020ZERO展・0号展参加 @hiroya0626 2016年4月5日
分かった事は、今回の件でANAはきちんと責任を取ったと言う事。
n-yoshi @laresjp 2016年4月5日
この件に関しては、ホント「全日空凄ぇ」しか感想は出ないわ。
国見小道@資源バケツ0企画 @kunimi_komichi 2016年4月5日
しっかり対応してるのに減俸て。1度のミスを許さない世間の風潮大嫌い。
DAKA@再建中 @pontaboxz 2016年4月6日
可用性99.99999999999999%で許されず100%が求められる世界だもの。もうやだ( ;∀;)
FFR31 @FFR31 2016年4月6日
これはANAさんの対応が見事だったとしか言えない。 でも文句言う人が絶対いるのだろうな。
ナスカ-U-KWS ★☆☆☆☆ @Chiether 2016年4月7日
この手の役員減額については、会社(法人)への損失補填(または調整)の意味合いもあるからね。 懲罰という意味だけでないって考えるとスッキリするよ。
bb @bblets 2016年4月7日
Ciscoのポートの半死はまれにありますけどねー ちょっと被害でかかったな。
ちいさいおおかみ〜クリアカード編〜 @siu_long 2016年4月8日
つかさ、日本のJIS規格で部品もちゃんとした所の製品で組んだらIT機器って相当保つよ。欧米の甘っ怠い規格で半島製品でも使ってたんじゃないか?
ちいさいおおかみ〜クリアカード編〜 @siu_long 2016年4月8日
Ciscoの資格勉強を根本的にやり直そうと思った。
ログインして広告を非表示にする
ログインして広告を非表示にする