ニュース

「au通信障害」KDDIの会見質疑詳報、なぜここまで障害が長引いたのか? スマホ時代の課題とは?

 KDDIは、2日1時35分から発生した携帯電話サービスにおける通信障害について、4日20時から記者説明会をオンラインで開催した。

 説明会には、同社取締役執行役員専務 技術統括本部長の吉村和幸氏と、執行役員 技術統括本部 副統括本部長 兼 エンジニアリング推進本部長の山本和弘氏が登壇した。

 約1時間の説明会は、吉村氏による10分程度の説明のあとに、およそ50分間にわたって質疑の時間が設けられた。本稿では、同氏の説明と質疑の内容をあわせてお届けする。

 2日1時35分から発生した携帯電話サービスについて、影響回線数の合計は、全国で最大3915万回線。説明会の時点で、音声通話、SMS、データ通信はすべて「ほぼ回復」の状態にある。

 3日の復旧作業は予定どおり終了したが、その後、ネットワーク試験や検証を実施するなかで、「VoLTE交換機」「加入者DB」の負荷が十分に軽減されなかったという。

 そこで分析を進めた結果、4日12時18分~13時18分までの間、18台中6台のVoLTE交換機が加入者DBへ過剰な信号を送っていたことが判明。KDDIでは、当該のVoLTE交換機について、システムからの切り離しを行った。

 これにより、VoLTE交換機および加入者DBの負荷が十分に軽減され、障害が発生する前と同じ水準の負荷となった。これを受け、4日14時51分に、無線設備の流量制御が解除された。

復旧宣言は5日夕方となる見込み

――全面的な復旧の見通しについて教えてほしい。

吉村氏
 現時点で、音声・データともにほぼ復旧しています。

 (今後は)ネットワークやトラフィックの状態などの監視を引き続き行っていきます。個人・法人のお客さまのサービスの状況を確認しまして、最終的な復旧の判断としたいと思います。

 だいたいの目処としては、5日の夕刻となっています。

――5日の夕方に復旧宣言をする予定とのことだが、その宣言の前と後とで、特に状況は変わらないということなのか。

吉村氏
 ネットワークやトラフィックに関して確認はしますが、基本的には現在の状況と変わらないと思っています。

 ただし、長い時間の障害になりましたので、個人や法人のお客さまがサービスをしっかり使えていることを確認したいと思っています。したがって、最終的な復旧宣言については5日にしたいと考えています。

――現時点で「ほぼ回復」という表現をしているが、「ほぼ」という表現の理由は。

吉村氏
 実際にネットワークやトラフィックの状況は安定していると認識していますが、状況をしっかりと確認したいと思っています。

 法人のお客さまの場合は、単なる通信だけではなく、システムのなかに通信を組み込んでいることもあります。それらも含めてサービスのご利用状況を確認したうえで完全復旧だと思っています。

 ですので、定量的な表現が難しく、「ほぼ」という表現を使わせていただきました。

――ユーザーの補償についてはどうなるのか。

吉村氏
 現時点では原因の究明などに努めています。補償を含め、お客さまへの対応は別途ご案内できればと思っています。

復旧作業完了後に待ち受けていたのは、“予想以上の負荷”

――3日の復旧作業のあと、どのようなことが起きたのか。

吉村氏
 3日の復旧作業のあと、システムの負荷は落ちると想定していましたが、実際には予想以上に負荷がかかっていることが判明しました。したがって、その調査を行っていました。

 その後、4日午前中に原因が特定できましたので、措置をとることによって、負荷が下がって現在の状況に至りました。

データ通信と音声通話の違いは? 流量制御について

――4日14時51分に無線設備の流量制御が解除されたということだが、ユーザーとしては、これをもって何の制限もなく使えるようになったということでよいか。

吉村氏
 おっしゃるとおりです。

――4日15時時点の発表では、音声通話が利用しづらいという発表があったと思うが。

山本氏
 4日14時51分の時点で、無線の流量制御を解除しました。その後、ネットワークの健全性の確認ということで状況の把握を行っていたこともあり、Webサイトの掲出時間とのズレが発生しました。

――3日の会見では、50%くらいの発信規制(流量制御)がかかっているとされていた。その後、段階的に規制がゆるめられたということか。

吉村氏
 おっしゃるとおりです。規制をかけることによって、システムが処理できるレベルにしました。そうして、正常に処理できるレベルにおさめて処理をしながら、輻輳を解消するというオペレーションでした。

――今の話に関連して、流量制御について、データ通信は先に制御をなくしていた。データと音声の流量制御の違いを教えてほしい。また、制御が50%から0%に至るまでの推移も知りたい。

山本氏
 流量制御につきましては、音声とデータの2つに別々の制御をかけているわけではありません。無線に対しての流量制御となっていて、すべての通信に同様の制御をかけていたということです。

 制御解除への推移につきましては、手もとにデータがないのでお答えできません。段階的に制御をすることで、急激な流入を避けていました。

――特に音声の通話の復旧が遅れたのは、どういった理由によるものなのか。

吉村氏
 音声に関しては、データ通信と比べてシーケンスが少し複雑なところがあり、負荷軽減の対策などに時間がかかりました。

――流量制御について、推移を段階的に発表しなかった理由を教えてほしい。

吉村氏
 これについては、あえて出さないというような意図があったわけではありません。お客さまへの周知につきましては、考えていきたいと思います。

VoLTE交換機の故障の原因については調査中

――4日の説明では、VoLTE交換機や加入者DBの輻輳は、ルーターの入れ替えをきっかけとして起きたという説明があった。ただ、今回の説明を聞くと、そもそもVoLTE交換機に問題があったのではないかと思うが。

吉村氏
 過剰な信号については、最初からあったというわけではありません。ルーターの入れ替えをきっかけとした輻輳、その状態のなかで加入者DBなどの不一致があり、そのなかで発生してしまったものです。いわゆる信号の再送というかたちになります。

――VoLTE交換機というのは、IMSのノードでいうと、S-CSCFにあたるのではと思うが、間違いないか。加入者DBへの過剰な信号は、ダイアメーター(Diameter)のシグナリングということか。

吉村氏
 ご指摘のとおり、VoLTE交換機はS-CSCFであり、(加入者DBへの過剰な信号は)ダイアメーターのシグナリングです。

――さらに不具合の連鎖がひとつ増えてしまったということになるのか。

山本氏
 故障の原因については、現時点でまだ特定できていません。

 故障のタイミングがいつだったのか、ルーターの入れ替えをきっかけとしたものだったのかということについては、特定していきたいと思っています。

ユーザーへの影響を最小限に抑えつつの“VoLTE交換機切り離し”

――VoLTE交換機の過剰信号について、過剰信号を出していた6台に気づいたきっかけは。

吉村氏
 加入者DBのデータ不一致に対する措置を実施したあとに、信号の中身について、統計情報などを用いて分析しました。

 結果として、VoLTE交換機のバランスが悪いということが判明し、詳細を調べたところ、同じような信号が何度も出ているとわかりました。

 こういったことがもう少し早くわかるように、KDDIとして知見を蓄積していく必要があると思っています。

 ただ、一番最初の輻輳制御から徐々にやることによって、状況がある程度落ち着いてきたからこそ、これ(VoLTE交換機の過剰信号)が見えてきたということもあります。

――障害が発生した最初の段階で、VoLTE交換機をすべて切り離しても良かったのでは。

吉村氏
 最初の時点でも、3分の1よりも少し多いお客さまが通信を使えていましたので、そういったお客さまへの影響を抑えるという意味でも、すべてを切り離すことはせず復旧作業をしていました。

 「最初の段階ですべて切り離す」ということについてはもう少し検証してみないとわかりませんが、復旧措置としては今回のようなかたちだったのかなと思っています。

――VoLTE交換機をすべて切り離さず、徐々に対策をしていったことが、障害がこれだけ長引いた理由ということか。

吉村氏
 おっしゃるとおりです。データ通信や通話を残しながら絞っていくオペレーションだったということもあり、時間がかかってしまいました。

 このあたりも、いろいろな振り返りのなかで振り返っていければと思います。

――VoLTE交換機は6台切り離され、残り12台という状況だが。

山本氏
 設備の容量としましては、現在の12台で十分運用できる状況となっています。皆さまのサービスに関しては、十分提供できるという状況です。

――この12台については、ほぼ問題ないという認識で大丈夫か。

山本氏
 はい。そこの健全性については、確認を行っております。

――VoLTE交換機を18台使っているという話だったが、普段から18台すべてを使っているのか。

山本氏
 18台すべてを使っています。故障が起きた場合に備えて、余裕を持った設備構成です。

 たとえば故障するケースや、メンテナンスをするケースもありますので、そういった場合に備えた容量設計になっています。

――問題があった6台は、ずっと切り離した状態であるということなのか。

山本氏
 現在は切り離しをした状態です。故障の原因を突き止めて修正し、最終的には組み込みを行って18台に戻していくことになると思います。

障害の分析に役立った新データセンター

――今回のトラブルが起きた場所は、新しいデータセンターと聞いている。無人化などによって復旧のスピードが速いということだが、新しいデータセンターをどのように評価しているか。

吉村氏
 3日の会見で、今回のルーターは多摩にあったとお伝えしました。したがって、新しいデータセンターだと思われたかもしれませんが、今回の多摩のルーターは、ひとつ前の施設に置かれています。

 そんなことはどうでもいい話だと思うんですけど、今回のような障害を分析するうえでは、新しいデータセンターは役に立ちました。

 輻輳に対するオペレーションは、今回のように3日もかからないよう、スピードアップに努めていきたいと思っています。

ユーザーによる発信は、復旧作業に影響しなかった

――こういった障害が起きた際に、ユーザーが発信を試そうとすることはあると思う。また、スマートフォン自身がデータを流そうとする挙動もあったのかなと思うが。

吉村氏
 一般的な例で言いますと、通信障害が起きたときに、お客さまが何度も発信などを繰り返すことにより、輻輳が大きくなるのはよくあることだと思います。

 しかしながら今回については、端末が自動的に発信をすることが支配的な要因でした。したがって、お客さまによる確認の発信が、復旧作業に影響を与えたことはなかったと思います。

――スマートフォンが普及しているからこそ、スマートフォンからの発信を止められなかったということなのか。

吉村氏
 おっしゃるとおりです。ですので、そのあたりを制御しながら処理していくということが、今後の輻輳対策として必要になってくると思います。

再発防止に向けて――10年前と比べたときの難しさとは

――これまでのドコモやソフトバンクなどにおける障害と比べて、復旧までの時間がかかったという印象だが。違いなどはあるのか。

吉村氏
 今回の内容に関して、端末からの接続要求が増えたということで、ドコモさんとは基本的に同じ事象だと思っています。ドコモさんの事象を受けて、弊社でも復旧手順を用意しておりました。

 今回、その手順を作動させたのですが、それではおさまらない事象だった、ということになります。このあとの振り返りで、どこがいけなかったのかというのを見ていきたいと思っています。

 ソフトバンクさんについては、輻輳というよりも、ライセンスの期限の問題だったと思うので、少し事象が違うというふうに認識しています。

 通信事業者としては、ウィークデーの月曜日まで含む3日間(の障害)というのはあってはならないことだと思っていますので、二度とこうしたことを起こさないようにしたいと思います。

――今回の通信障害について、反省点や教訓として話せるものがあれば教えてほしい。

吉村氏
 今の時点でいくつか思いつくこともありますが、ここは網羅的に、事象の分析とあわせてしっかりやっていきたいと思います。

 ですので、申し訳ありませんが、今の時点でお伝えすることはせず、しっかりと検討したうえでご報告したいと思っています。

――ドコモでも昨年に1000万人以上に影響する通信障害があった。今回は約4000万人に影響を与える通信障害だったが、障害が大規模化しやすくなっている技術的な背景はあるのか。IP化が進むことで、大規模な障害が起きやすくなっているという意見もあるが。

吉村氏
 IP化によって、大規模な障害になっているとは思いません。逆に、IP化によって復旧が早くなっているという実態もあると思います。

 スマートフォン端末のほうで自動化されている部分が、大規模障害につながっている可能性もあると思いますので、対策を検討していかなければと感じています。

――端末が自動化すると輻輳が起きやすくなる、というのは。

吉村氏
 昔の3G時代は、ここまで大きな障害は聞いたことがありません。

 たとえば今回のVoLTEでは、常に端末側がシステムへアクセスしている状態がつくられていて、それが輻輳などの引き金にはなっているのかなと思います。

――ドコモの通信障害のあとに、対策を取ったという話があったと思う。具体的な対策と、今回その対策が機能しなかった理由を知りたい。

吉村氏
 まず、ドコモさんの事例としては、IoTの端末を処理するところの輻輳が契機となりました。その輻輳が、ほかの携帯電話サービスに影響を与えたと聞いています。

 そこに関して弊社としては、IoTを扱う認証のシステムと、電話機のシステムを分離させるという設計を確認してきました。

 もう一点は、VoLTE交換機に輻輳が起きても、すぐに復旧できる手順や設計を考えてきました。今回障害が発生したときに手順を踏んで対応しましたが、想定していた以上のことが起きてしまったということになります。

 なぜそういうことが起きたのかということについて、今後再発防止策を検討していきたいと思います。

――10年前、御社やドコモで発生していた「キャパシティを超える障害」と重なる部分がある。そういった経験を踏まえてなお、そうした知見が通用しなかったことについて、所感を聞きたい。

吉村氏
 今回のケースで言うと、昔と比べて複雑になっているのかなと思います。

 かつては音声通話は(回線交換であり)データ通信とまったく分かれて処理されていましたが、今回のVoLTEは、音声とデータが一緒になっています。そこに対する複雑な処理を、復旧手順のなかでもう少し考えていく必要があるなと感じます。

 今後、いろいろなサービスが複合的に同居するものも増えていくと思いますので、そういったものに対する手順を考える必要があると、個人的に考えているところです。