KDDIで発生した通信サービスの障害はなぜ起きたのか

509
V @voluntas

加入者データベースに書き込んでから VoLTE 交換機にデータを書き込むが加入者データベースに書き込めても、VoLTE 交換機が輻輳により障害が発生していたので書き込めなかったので、データの不一致が発生した。

2022-07-03 12:55:27
リンク 日経クロステック(xTECH) VoLTE Voice over LTEの略。高速データ通信サービスLTE上で音声通話(電話)の仕組みを提供するための技術である。LTEネットワーク上で「パケット交換」方式を用いて直接音声をやり取りする。 74
かねがえ : モバイル勉強中 @nekokane

VoLTE交換機=IMSのことで、青丸の当たりです。 輻輳するなら入り口のP-CSCFかな? pic.twitter.com/Lka86CPHBW

2022-07-02 18:12:38
拡大
V @voluntas

VoLTE 交換機で輻輳が起きた。VoLTE 交換機アクセスが発生するたび加入者 DB へのアクセスがおき、そこで負荷が発生。輻輳ほんとしんどいな。

2022-07-03 11:21:05
V @voluntas

ルーターの不具合と考えている。

2022-07-03 11:22:20
V @voluntas

ルーターの交換作業をして輻輳発生。担当者まじつらかっただろうな ... 。

2022-07-03 11:23:50
V @voluntas

KDDI の社長の回答すごいな、まともだ。ネットワークが突然回復するということはないので、確認しつつになる。ほんとそれ。

2022-07-03 11:29:12
V @voluntas

各端末は加入者データベースへいったん書き込みをする。その後 VoLTE 交換機へ書き込みを行く。加入者データベースと VoLTE 交換機が持ってる両方の状態が不一致が発生した。なるほどー。わかりやすい。

2022-07-03 11:58:33
V @voluntas

データベースの不一致というか「加入者データベースと VoLTE 交換機が持っている状態の不一致」って感じか。

2022-07-03 12:00:16
V @voluntas

ルーターの設定ミスの可能性が高いとのこと。検証はもちろんやってるだろうから、何かしら抜けてしまったんだろうな。Cloudflare も設定ミスだったし、どうしようもない。

2022-07-03 11:47:46
tooshiba1960 @tooshiba1960

@voluntas 最近の大型機はIFの高速化に対応するためにNIF毎に高速分散処理していると思いますので、ルーティングの大量アップデートを受けたりすると、フォワーディングはなるべく止めないように、かつ、各NIF間の整合性取りつつ、しかも全体のテーブル再計算をする、と言う震えるような事態が発生s..

2022-07-03 15:20:56
早期リタイアは遠く🐏 @de56894171

事前に試験環境を用意していても、商用と同等レベルのトラフィックを再現する事は現実的に無理で、同一機器でもFWバージョンの違いとかあると、ケースがどんどん増えてしまうし。。。気づけ無いものはどうしても出てくるのよなぁ・・・ twitter.com/voluntas/statu…

2022-07-03 15:50:11
V @voluntas

先日の Cloudflare の障害もルータの設定ミスだったし、ネットーワークの設定ミスは気付きにくく、障害が起きやすい。本当に難しい世界なんだろうな。

2022-07-03 13:59:25
かわいいは正義 @shimesaba_type0

@voluntas 加入者dbに輻輳あったんですか? 加入者dbが更新されてもvolte側が更新されず加入者データの不一致が起きたと理解してました

2022-07-03 14:06:43
V @voluntas

@shimesaba_type0 会見によると VoLTE での輻輳により端末からの再送要求が起きて加入者 DB への輻輳「も」発生したとの理解です。

2022-07-03 16:14:28
かわいいは正義 @shimesaba_type0

@voluntas 詳細はまた記事が出ると思いますので、待ちですかね。 とりあえず、スライドの写真はここに有りました xtech.nikkei.com/atcl/nxt/news/… 誰も倒れることなく復旧することを祈ります。

2022-07-03 16:24:09
リンク 日経クロステック(xTECH) KDDI高橋社長が通信障害を陳謝、原因はコアルーター交換時の不具合とアクセス集中 KDDI(au)の高橋誠社長は2022年7月3日、7月2日午前1時35分ごろから継続している全国的な通信障害について緊急会見を開き「社会インフラを支え安定したサービスを提供しなければならない通信事業者として深く反省している。お客さまには多大なご迷惑をおかけしたことを深くおわびする」と陳謝した。 411 users 1178
V @voluntas

@shimesaba_type0 youtu.be/Eupgr0PP9KA?t=… このあたりでしょうか。加入者データベースへの負荷が上がった話があります。

2022-07-03 16:47:27
拡大
かわいいは正義 @shimesaba_type0

@voluntas たしかに加入者DB の負荷が上がった旨の話が有りますね。 すみませんでした。 聞き逃していたようです。 確かに VoLTE の交換機に接続要求が来る度に 加入者DB とデータ整合性確認をしているなら、今回のケースではDB にも負荷がかかってもおかしくないし、想像すると頭痛いですね。

2022-07-03 16:56:14
(び) @bizenn

高負荷になってデータベースの不一致が起こるってどういうことだろう。不整合が起きるってことなのか、キャッシュが更新されなくておかしな状態になるってことなのかな。

2022-07-03 12:02:33
V @voluntas

@bizenn データベースが二つあって書き込む場所が別で、片方だけにしか書き込めなかったという感じのようです。

2022-07-03 12:03:54
(び) @bizenn

@voluntas ある種の分散トランザクションになってたのかな。しんどそうなのが伝わってきて胃が痛くなりそうです。

2022-07-03 12:06:44
V @voluntas

@bizenn いや、おそらくですが疎結合だと思います。両方に書き込まれていれば初めてネットワークに繋ぐとかそんな感じなんじゃないかと。(詳しいわけじゃないので適当です)

2022-07-03 12:07:58
ゆやりん @yuyarin

IMSが落ちたときにどういう影響が出るのか?今回のKDDIの障害で学習したことをまとめてみました。 KDDIの通話・通信障害メモ - show log @yuyarin yuyarin.hatenablog.com/entry/2022/07/…

2022-07-03 12:12:30
リンク show log @yuyarin KDDIの通話・通信障害メモ - show log @yuyarin この記事は7/3午前中に記載したもので、まだKDDI社長の会見内容を反映していません。 今回のKDDIの障害が具体的にどういうサービスに影響が出るのものか、モバイルネットワーク初心者としてLTE/EPC/IMS周りの挙動の勉強のためにまとめてみた。 はじめにまとめ モバイルの通信には音声通話とデータ通信があり、今回主に長時間の障害を受けたのは音声通話(IMS)の方だった。 日中帯はデータ通信はできるが音声通話やそれに付属するサービスが利用できない状態が継続していた。データ通信も不安定な状態になっていた。 199 users 93