ニュース
「au通信障害」完全復旧のKDDI会見質疑詳報、総務省幹部も入った復旧作業の舞台裏は
2022年7月5日 23:11
KDDIは、2日1時35分に発生した携帯電話サービスにおける通信障害について、5日18時から記者説明会をオンラインで開催した。
なお、通信障害自体は5日15時36分に完全復旧したことが発表されていた。
説明会には、4日に開催された説明会と同様、同社取締役執行役員専務 技術統括本部長の吉村和幸氏と、執行役員 技術統括本部 副統括本部長 兼 エンジニアリング推進本部長の山本和弘氏が登壇した。
約1時間の説明会では、吉村氏による短い説明のあと、質疑の時間が設けられた。本稿では、同氏の説明と質疑の内容をあわせてお届けする。
2日1時35分~4日15時までの計61時間25分にわたって続いた今回の通信障害。影響回線数の合計は、最大約3915万回線にのぼる。
3日の復旧作業は予定通り終了したものの、その後「VoLTE交換機」「加入者DB」の負荷が十分に軽減されなかった。そこで、過剰な信号を加入者DBに送っていたVoLTE交換機をシステムから切り離すことなどにより、負荷の軽減が図られた。
負荷が軽減され、トラフィックの輻輳は4日15時に解消。
それ以降も音声通話のトラフィックの監視が続けられ、トラフィックの量が前週比で継続的に同じレベルであることが確認されたため、復旧宣言が発表された。
今回の通信障害について、カスタマーサポート部門への問い合わせ数は5日13時時点で9万6723件。この数はすでに、平常時と同等まで収束しているという。
行政機関を含む法人への影響もすべて解消され、KDDIは、詳細な原因究明や再発防止策の策定などを進めていくとしている。
通信障害は本当にすべて解消された?
――端末の再起動をしないと通信を使えないユーザーもいたが、そうしたユーザーはいなくなったという理解で大丈夫か。
吉村氏
現在、ネットワークとしては回復しましたが、端末によってはセッションが残ってしまうということがありますので、電源のオンオフを試していただいています。
そういったお客さまの数はゼロになっていないと思っています。
――コネクテッドカーなどについて、音声・データともに復旧したあとも、サービスを使えないユーザーがいたと思う。この理由を教えてほしい。
吉村氏
詳細は確認中ですが、サービスセンターでの音声通話などに一部影響があったということを聞いています。これも同じように、端末側でセッションが残留した問題だと思っています。
――今回の通信障害を受け、御社のサービスを解約したユーザーの人数を知りたい。
吉村氏
状況が把握できていませんので、ご容赦願いたいと思います。
――ユーザーに影響があった時間について、4日の15時までと判断した理由を教えてほしい。
吉村氏
先ほどのグラフでもお知らせしましたが、トラフィックが戻った時間を確認し、その時間をもって、お客さまへの影響がなくなった時間と判断しました。
――その時点から復旧宣言までに1日かかった理由について、あらためて教えてほしい。慎重に確認したということなのか。
吉村氏
おっしゃるとおりで、法人のお客さまも含めて、慎重に状況を確認したということがあります。
あとあわせて、4日の15時以降の24時間、トラフィックの状態が先週と変わらないという確認もありましたので、その時間をもって完全復旧としました。
――24時間トラフィックの状態を見ていく、というのは異例の対応だったのか。
吉村氏
通常の障害後に復旧宣言を出すときと比べれば、24時間というのはやはり長いと思っています。
今回は、トラフィックの多い時間も確認したいということもあり、24時間というかたちで対応しました。
――ユーザーへの補償対応について、決まっていることがあれば教えてほしい。
吉村氏
障害の復旧を今回確認できましたので、影響範囲などを確認したうえで、法人のお客さまも含めて補償を検討していきます。別途ご案内します。
――補償の案内はいつごろになりそうか。
吉村氏
申し訳ありません、現時点では決めておりません。社内で早急に検討したいと思います。
――影響範囲が「最大」というかたちで表現されているが、調査である程度絞れたのか。
吉村氏
影響範囲については、今回「最大」というかたちで出していますが、詳細な数については別途ご報告させていただきます。
法人への影響と対応について
――IoTについて、法人単位で何社影響が出たということは精査できているのか。
吉村氏
回線数としては150万回線という数字を出していますが、現時点で、何社とすぐにお答えはできません。申し訳ありません。
――法人向けの復旧確認について聞きたい。どのくらいの細かさで、確認を行っているのか。
吉村氏
社会基盤になっているような法人のお客さまについて、弊社のSEあるいは営業のメンバーがうかがって、システム上の確認を行っています。
「通信は直ったが、システム上の対応が必要」というお話はありますが、現時点で通信は問題ないというフィードバックをいただいています。
中小の法人のお客さまに関しましては、コンシューマーと同じように法人の受付窓口があり、そちらで対応しています。現時点で重篤なクレームはなく、法人さまに関しても、現時点で障害は解消していると判断しています。
過剰な信号を出していたVoLTE交換機、その後の状況は
――過剰な信号を出していたVoLTE交換機を切り離したという話があったが、現在も切り離したままなのか。今後それをシステムに再び組み込むなかで、輻輳が起こる可能性があるのかどうか教えてほしい。
山本氏
現在は切り離したままで故障の原因などを調べており、正常になったことを確認したうえで組み込む予定です。
組み込む際は、輻輳などが発生しないよう、事前に検証をしたうえで組み込んでいきたいと思っています。
――18台のうち、切り離した6台のVoLTE交換機の調査について、アップデートがあれば教えてほしい。
山本氏
詳細を解析していて、現時点では明確にお答えできる情報を持ちあわせていません。引き続きしっかり確認をしていきたいと思っています。
――その6台に何か共通点はあるのか。
山本氏
ハードウェアのメーカーやソフトウェアのバージョンについては、18台すべて共通です。現時点では、その6台だけの特徴的な違いが見つかっているというわけではありません。
今後調査を進めるうえで、たとえば「設定が違った」などのような可能性もありますので、共通点なども探していきたいと思っています。
――VoLTE交換機について、18台中6台を切り離しても、12台で運用できるという話だった。12台というのは運用できるギリギリの台数だったのか。今後、VoLTE交換機を増やしていく予定はあるか。
山本氏
18台中の半分にあたる9台があれば、運用については十分可能な容量設計となっています。
倍の容量の設備を用意しているということで、今回の6台の切り離し後も問題なく運用できていますので、さらに台数を増やすということについては現在考えていません。
知見を蓄積して、今後の再発防止へ
――「ネットワークオペレーションセンターを運営していくのは職人技だ」という話があったと思う。今回の復旧作業も“職人技”だったのか。
吉村氏
“職人技”と言えるかどうかはわかりませんが、今までの経験のあるメンバーや、パートナーの皆さんと一緒に復旧作業を行いました。
なので、こういった知見を積み重ね、最終的にオペレーションの自動化などを目指していきたいと思います。
――ドコモで障害が起きた際の復旧手段をうまく活用できなかった部分がある、とのことだったが、どのあたりが足りなかったのか。
吉村氏
いくつか見直さなければいけない点は、その後の調査でわかってきました。早期に切り離しが必要だったとかそういうこともありますが、そのあたりも含めて足りない点が見えてきましたので、早急にまとめてご報告できればと思っています。
今回発生した事象においては、音声とデータ通信の複合的な要因があるような場所について、早めに状況を把握し、早い段階で措置をとるべきということが見えてきました。そのあたりをしっかり検討していきます。
――再発防止策に関連して、ネットワーク運用をAIでセルフヒーリングするようなソリューションもある。仮想化基盤上で、負荷が上がる予兆があれば、自動でリソースを増やすというようなイメージ。今回のような想定外の障害の連鎖に、こういったソリューションが対応できるのかどうか、現時点での見解を教えてほしい。
吉村氏
トラフィックが増えたときの影響などについて、仮想化でリソースを増やすようなシミュレーションというのはすでに行われています。
今後は、今回の障害と同等レベルのシミュレーション環境をしっかりつくれるようにしていきたいと思っています。
今あるソリューションでは対応できないと思いますが、弊社の研究所のAIのチームも含めて、今後しっかり対応していきたいと考えています。
――再発防止策について、具体的に今の時点で挙げられるものがあれば教えてほしい。
吉村氏
今回はルーター入れ替えの作業が契機ということもありますので、作業の事前検証なども含め、もう一度見直していきます。
また、輻輳に対しては早い段階での対処が一番大事ですので、そこができていたかということも検証したいと思います。
あとはお客さまへの周知についても、対応を考えていきたいと思っています。
――今後予定しているという「詳細な原因究明」について、どのくらいの細かさで考えているのか。障害発生以降のすべてのログを解析していくようなことをしたら、年単位の時間が必要だと思うが。一方で、総務省からは「迅速な報告を」と言われていると思う。
吉村氏
原因究明については、電気通信事業法で詳細報告は「発生から30日以内」と定められていますので、それまでに詳細を詰めて報告できるようにしていきたいと思っています。
もちろん、可能な限り早くやるべきことなので、期限よりも前にしっかりと報告したいと思います。
総務省の幹部とのやり取りは、どのような内容だった?
――総務省から御社に幹部が派遣され、幹部からアドバイスを受けたということだったが、どのようなやり取りがあったのか。
吉村氏
総務省の幹部の方々に来ていただきまして、さまざまな助言をいただきました。
特に「利用者に対してのきめ細やかな情報の周知が必要だ」という助言をいただきまして、役に立ったというと失礼ですが、良かったと思っています。
――助言は、あまり技術的な部分ではなかったのか。
吉村氏
いえ、技術的な部分については、具体的にどれということではありませんが、私たちの報告に対していろいろな視点でご質問をいただきまして、“視点をいただく”ということで役に立ったと思っています。
――総務省の幹部(リエゾン)は、どれくらいの期間御社にいたのか。
吉村氏
障害が発生した日の夕刻からいらっしゃって、この説明会が始まる時点でもいらっしゃっています。まだお帰りになっていないと思います。
ユーザーへの周知は今後どうしていく?
――4日の会見のなかで、「『機内モードのオンオフ』『端末の再起動』を試してほしい」という話があったが。この周知に関して課題は感じているのか。
吉村氏
Webサイト上ではご案内していました。ただ、もう少し周知しておけば良かったと感じています。
――Webサイト上での周知にとどまらず、メディアに声をかけることもできたと思うが。
吉村氏
ご指摘ありがとうございます、おっしゃるとおりです。メディアの方々と協力してお客さまへ発信していくことは重要だと思いましたので、引き続きご協力よろしくお願いいたします。
――こういった大規模障害時にユーザー側でとれる対応について、御社のほうで公式マニュアルのようなものは用意されているのか。用意されていない場合、今後作成する方針はあるのか。
吉村氏
大規模障害時に、ショップなどで私たちがどういう周知をすべきかという決まりはありますが、ユーザーさまに対してのお願いを明文化したマニュアルは準備されておりません。今後検討したいと思います。
インフラとしての通信のあり方
――ユーザーからの問い合わせが9万件超あったということで、そのなかには命にかかわるような重大な問題もあったかと思うが。
吉村氏
今回の問い合わせのなかで、さまざまなお声をいただいています。かなり深刻な状況でも音声通話を使えなかったという話も聞いています。
命に関わる問題があったというところに関しては、現時点で私のほうでは把握していません。申し訳ありません。
ただ、音声通話ということで、病院に電話をかけられなかったというような話もいくつも聞いていますので、あらためて再発防止に努めていきたいと思っています。
――緊急通報について教えてほしい。緊急通報がつながりにくかった時間と、通常の通話がつながりにくかった時間は同じだったという理解でよいか。
山本氏
はい、ご理解のとおりです。
緊急通報については優先制御をするという機能があり、その機能自体は動作はしていました。ただ、VoLTEの音声全体に影響があるような障害だったため、残念ながら緊急通報にも一部影響がありました。
――今回の障害のなかで、たとえば緊急通報の電話だけが可能であれば、命にかかわる問題が防ぎやすくなったと思う。海外の事例を見てみると、SIMなしでも緊急通報できるような仕様もある。こういったしくみについて、御社としては必要だと考えているのか。総務省を交えて議論していくような考えは。
吉村氏
たしかにそういった事例は聞いています。
実は総務省さんの関係する対策会議でも、災害時におけるローミングや他社利用は、すでに検討に入っています。
緊急通報だけでもできないか、というのは検討されていますので、引き続きその枠組みのなかで検討できればと思っています。
――今回の通信障害において、緊急速報メールのようなしくみで周知することは可能だったのか。もし可能なのであれば、採用されなかった理由を教えてほしい。
吉村氏
今回はデータ通信は問題ありませんでしたので、緊急速報メールのようなしくみができるかどうかというのは、別途検証してみたいと思います。
緊急速報メールのようなしくみをすぐ使えるとは思っていませんが、何らかのほかの手段も今後考えていきたいと考えています。
――緊急時のローミングがあれば、今回のようなことはなかったのでは、という指摘もある。ローミングというしくみの有効性についてはどう考えているか。
吉村氏
ローミングに関しては、端末やトラフィックの問題など、いくつかクリアしなければいけない問題があります。
すぐにできるものとは思っていません。総務省さんのほうでもいろいろ検証があるようなので、一緒に検討していきたいと考えています。
――ローミングについて、総務省と検討しているということだった。以前の話し合いは2011年の東日本大震災だったと思うが、今回の障害を受けて新たに検討しているということか。
吉村氏
昨年の末くらいから検討会がスタートしており、いわゆる災害対策の強靭化に向けた検討事項のひとつとして入っている認識です。
なので、2011年のときもそういう話がありましたが、直近の検討会でも話題として上がっております。
――まだ話し合いは続けられているのか。
吉村氏
まさに検討が始まった段階だと認識しています。
――こうした障害が起きた際、キャリア間で協力していくことに関する見解を教えてほしい。
吉村氏
大規模障害が起きた際の他社さんとの連絡体制は整備されています。ただ、お互いの整備を使って復旧するというのは、必ずしもすぐにできる話ではありません。
災害時に回線を貸すというのはいくつか事例がありますが、今回のような大規模障害において、自社のユーザーさんを他社さんでまかなってもらう、というのはそれなりのトラフィックになります。
そのようななか、何ができるかというのは検討していきたいと思います。