加入者データベースに書き込んでから VoLTE 交換機にデータを書き込むが加入者データベースに書き込めても、VoLTE 交換機が輻輳により障害が発生していたので書き込めなかったので、データの不一致が発生した。
2022-07-03 12:55:27VoLTE交換機=IMSのことで、青丸の当たりです。 輻輳するなら入り口のP-CSCFかな? pic.twitter.com/Lka86CPHBW
2022-07-02 18:12:38VoLTE 交換機で輻輳が起きた。VoLTE 交換機アクセスが発生するたび加入者 DB へのアクセスがおき、そこで負荷が発生。輻輳ほんとしんどいな。
2022-07-03 11:21:05各端末は加入者データベースへいったん書き込みをする。その後 VoLTE 交換機へ書き込みを行く。加入者データベースと VoLTE 交換機が持ってる両方の状態が不一致が発生した。なるほどー。わかりやすい。
2022-07-03 11:58:33ルーターの設定ミスの可能性が高いとのこと。検証はもちろんやってるだろうから、何かしら抜けてしまったんだろうな。Cloudflare も設定ミスだったし、どうしようもない。
2022-07-03 11:47:46@voluntas 最近の大型機はIFの高速化に対応するためにNIF毎に高速分散処理していると思いますので、ルーティングの大量アップデートを受けたりすると、フォワーディングはなるべく止めないように、かつ、各NIF間の整合性取りつつ、しかも全体のテーブル再計算をする、と言う震えるような事態が発生s..
2022-07-03 15:20:56事前に試験環境を用意していても、商用と同等レベルのトラフィックを再現する事は現実的に無理で、同一機器でもFWバージョンの違いとかあると、ケースがどんどん増えてしまうし。。。気づけ無いものはどうしても出てくるのよなぁ・・・ twitter.com/voluntas/statu…
2022-07-03 15:50:11先日の Cloudflare の障害もルータの設定ミスだったし、ネットーワークの設定ミスは気付きにくく、障害が起きやすい。本当に難しい世界なんだろうな。
2022-07-03 13:59:25@voluntas 加入者dbに輻輳あったんですか? 加入者dbが更新されてもvolte側が更新されず加入者データの不一致が起きたと理解してました
2022-07-03 14:06:43@shimesaba_type0 会見によると VoLTE での輻輳により端末からの再送要求が起きて加入者 DB への輻輳「も」発生したとの理解です。
2022-07-03 16:14:28@voluntas 詳細はまた記事が出ると思いますので、待ちですかね。 とりあえず、スライドの写真はここに有りました xtech.nikkei.com/atcl/nxt/news/… 誰も倒れることなく復旧することを祈ります。
2022-07-03 16:24:09@shimesaba_type0 youtu.be/Eupgr0PP9KA?t=… このあたりでしょうか。加入者データベースへの負荷が上がった話があります。
2022-07-03 16:47:27@voluntas たしかに加入者DB の負荷が上がった旨の話が有りますね。 すみませんでした。 聞き逃していたようです。 確かに VoLTE の交換機に接続要求が来る度に 加入者DB とデータ整合性確認をしているなら、今回のケースではDB にも負荷がかかってもおかしくないし、想像すると頭痛いですね。
2022-07-03 16:56:14高負荷になってデータベースの不一致が起こるってどういうことだろう。不整合が起きるってことなのか、キャッシュが更新されなくておかしな状態になるってことなのかな。
2022-07-03 12:02:33@bizenn いや、おそらくですが疎結合だと思います。両方に書き込まれていれば初めてネットワークに繋ぐとかそんな感じなんじゃないかと。(詳しいわけじゃないので適当です)
2022-07-03 12:07:58IMSが落ちたときにどういう影響が出るのか?今回のKDDIの障害で学習したことをまとめてみました。 KDDIの通話・通信障害メモ - show log @yuyarin yuyarin.hatenablog.com/entry/2022/07/…
2022-07-03 12:12:30