【新機能】作り忘れたまとめはありませんか?31日前まで期間指定してまとめが作れる高度な検索ができました。有料APIだからツイートの漏れはありません!
9
ログインして広告を非表示にする
「艦これ」開発/運営 @KanColle_STAFF 2018-07-20 23:05:41
【ラバウル基地サーバ所属の提督の皆さんへ】 現在、「ラバウル基地サーバ」との間に大規模な接続障害が発生しています。攻撃的接続または何等かの原因か、現時点では確定できていません。現在、障害と同ダメージの確認にあたっています。暑い夜に、ご迷惑をお掛けして大変申し訳ありません。 #艦これ
「艦これ」開発/運営 @KanColle_STAFF 2018-07-21 03:10:30
【ラバウル基地サーバ】で発生した大規模な接続障害により、同DB(データベース)サーバに深刻な損傷を受けました。申し訳ありません。最も確実なバックアップは前回メンテ時の時点ですが、可能な限りダメージの少ない復旧を現在摸索&実施検討中です。復旧状況&見込みは、またご連絡致します。 #艦これ
「艦これ」開発/運営 @KanColle_STAFF 2018-07-21 04:15:03
【ラバウル基地サーバ所属の提督の皆さんへ】 「ラバウル基地サーバ」DB(データベース)サーバに深刻な損傷を受けました。最も確実なバックアップは前回メンテ時点ですが、可能な限りメージを最小限にするために、昨日7/20(木) 04:00付近の艦隊の再構成&復旧を試みています。現在作業中です。 #艦これ
「艦これ」開発/運営 @KanColle_STAFF 2018-07-21 07:25:24
【ラバウル基地サーバ所属の提督の皆さんへ】 「ラバウル基地サーバ」DB(データベース)サーバに深刻な損傷を受け、昨日【7/20(金) 04:00】時点の艦隊の再構成を行いました。申し訳ありません。 ※各資源の供出を行っています。 ※ログデータに基づき、課金アイテムの再展開を実施しています。 #艦これ
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:03
へえー!!こりゃ面白い! いや、ラバウル所属の提督さんにはそれどころじゃないんだが、今回の障害で原因として考えられることを考察してみよう
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:04
「艦隊これくしょん」というシステムの実体は前にも書いた通り ①.認証システムとしてのDMM(ログインするのはこれ) ②.クラウド上に無数に存在する計算処理ノード(戦闘結果とか通信して返すのはこれ) ③.最終的なユーザデータの格納先DB(艦隊のデータが入ってるのはこれ) の3つに大別できます
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:04
③は『○○鎮守府』『○○基地』そのものです。数十万人のデータを格納しているとみられるこのデータベースに問題が起こったのが今回の件ですね 従って、今のところ他の鎮守府や基地には問題は波及しないはずです(今のところ、ですけどね。詳しくは後述します)
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:05
さて、艦これは5年にわたって深刻なシステム障害は起こしていないはずです。初期に落ちまくっていたのは『ユーザが多すぎてパンク』的なもので、あれはプレイヤーからすると障害に見えるんですが、システムとしてはわりと普通の動きです。まあ、これはIT屋の考え方ですが…
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:05
しかし、今回データベース単位で復旧不能になっていますので、わりと艦これ初?かもしれないくらいの障害です。では、この障害はどうして起こったのか?候補を挙げてみましょう。
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:05
候補A. 物理障害。つまり、HDDにあたるものが吹っ飛んだとか、システムボードが壊れた系。まずあり得ません。そんな程度で落ちる脆弱なシステムは24時間稼働のゲームプラットフォームでは使い物になりませんし、もし、そんなシステムなら今回のような問題が何度も何度も繰り返し起こっています
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:06
一般にこの手の大規模なシステムで使うデータベースは ・論理的には多数のレプリカ(まあ複製だと思ってください)を使ってデータ自体を分散させ、大量のアクセスに耐える ・物理的には超高信頼性のお化けストレージ(半日に3本も4本もディスクがぶっ壊れても問題ない) を使います
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:06
候補B. 論理障害。今のところもっともあり得るのがこれでしょう。 Aで書いた通り、この手のシステムは多数のレプリカを使ったりして、大量のアクセスをさばいたりしますが、ここで整合性がおかしくなったりすると、データベース自体が壊れてしまうことがあります。設計のまずさやDBのバグなどですね。
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:06
また、おなじくAで書いた通り、お化けストレージを使いますが、こういった製品はコンシューマー用製品とは次元の違うとてつもない仮想化や最適化を駆使したデータの記録をしています。で、残念ながらこういった製品もごく稀にですが致命的な不具合を出すことはあります。それに当たった可能性ですね
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:07
候補C. オペレーションミス。実はこの可能性も高い! 大規模なシステムにおいて、ハードウェアの障害というのは『日常』であって、毎日のように計算ノードの1つを修理したり、HDD(SSD)を交換したりということをします。もちろんシステムを稼働させたままですよ!しかし修理交換は人間がやることです
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:07
サーバーラックの前で作業する時に、盛大に機材ごと転倒して、すんごい衝撃を与えてしまったとか、電力を供給するPDU(まあ電源タップみたいなものです)をまるごと落としてしまったとか、そういう信じられないことも人間が関わる限り、起こりえます。
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:08
ソフト的な方面でも、バックアップ処理をするつもりで『データ全消し』をやってしまったとか(そんなサーバ業者がいたような…?)、人間が関わる限り、ミスは必ず起こります。想像を絶するミスもあり得ます。何しろ軍艦同士ですら、はわわぐわああと衝突するのです。コンピューターでも同じです。
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:08
というわけで、3つの候補を挙げましたが、まあ可能性が高いのはBかCだと思います!
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:08
それと、復旧したデータが前日のAM4:00時点なので、データベースのスナップショット(バックアップみたいなもんです)を日次でAM4:00に走らせていることがわかりますねー!演習の更新処理がAM3:00、任務の更新がAM5:00ですから、この辺りの重いジョブが1時間間隔なんでしょう!ロジカルです!
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:19:09
ジョブ制御は何でやってるんですかねー。ちっこいシステムならcronだけでやっちゃったりしますが、大きなシステムならJP1とかだったりしますが。まあ、この辺は外からではまったく見えない話なので、割愛! というわけで、今回のラバウルサーバー障害の考察でした!(・∀・)
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:27:11
おっと、忘れるところでした! 最初の方で書いた『他のサーバに問題は波及しないはず』ですが、つまりデータベース単位での問題なので、他のデータベース(鎮守府)には及ばない、ということです。
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:27:11
ただし、何らかの改修した新プログラム処理が原因の場合、他のサーバでも将来的に顕在化する可能性はあります。もっとも、いきなり全サーバに投入しているはずはないので、あり得るとしても今回、ラバウルで実験的に投入⇒問題が出た、という辺りでしょう。
防人因果@DLW,超電脳のユニバック @IngaSakimori 2018-07-21 08:27:11
意外とラバウルは艦これというシステムの中では、新要素(ユーザには見えない)が最初に投入されてテストされるサーバなのかもしれませんね! もちろんユーザが接続できない開発サーバ、ステージングサーバもあるはずですけどね!

コメント

ゆずこせう@県央角刈り @yuzukoseuG 2018-07-21 08:27:13
陸軍としては海軍によるラバウル失陥の責任を問うものである
ひろ@猫もふ欠乏症 @hiro_h 2018-07-22 23:45:57
Bだろうなぁ。サービス開始時にmysql clusterだったのが、夏の終わりぐらいにhadoopベースに置き換わってからは詳しいことは聞いてないけど、availableなdbが二つ出来てそれぞれにデータが突っ込まれて矛盾で動かなくなる、ぐらいは起きそう。…素人が真っ先に思い付くなら対策されてそうでもあるけど…
ログインして広告を非表示にする
ログインして広告を非表示にする