ニュース
KDDI「通信障害に関する説明会」詳報、1時間半の説明会で何が語られたのか
2022年7月30日 00:26
KDDIは29日、7月上旬に発生した通信障害に関する説明会を実施した。説明会には、同社代表取締役社長の髙橋誠氏と、同社取締役執行役員専務 技術統括本部長の吉村和幸氏の2名が登壇した。
通信障害の概要の説明などを含む説明会の時間は、質疑応答もあわせて約1時間30分に及んだ。本稿では、その内容をお届けする。
髙橋氏は冒頭、通信障害についてあらためて謝罪。
「7月2日土曜日1時35分より長時間にわたり、当社の通信サービスをご利用の全国のお客さまに多大なご迷惑をおかけいたしましたことを深くお詫び申し上げます。社会インフラを支え、安定したサービスを提供しなければいけない通信事業者として、今回のような状況を発生させてしまったこと、重く受け止めています。再発防止策の徹底を図りまして、サービスの安定的な運用に向けて全力を上げて取り組んでまいります」とコメントした。
通信障害の概要
続いて髙橋氏は、通信障害の概要の説明に移った。
今回の通信障害の影響時間は、7月2日1時35分~4日15時までの、トータルで61時間25分。影響規模として、音声通話(VoLTE)が約2278万人、データ通信(4G/5G)は765万人以上に影響した。
加えて、今回の通信障害では、スマートフォンやIoTを利用する物流や自動車サービスなど、産業界にも影響が及んだ。
髙橋氏は今回の課題を踏まえ、再発防止策の徹底やサービスの安定的な運用に加え、適切な情報を届けていく手法なども確立していくと語った。
同氏は、通信障害を時間軸で見た場合の概要も説明。7月2日のメンテナンス作業において、ルーターの経路の誤設定により、約15分間にわたって通信断が発生した。
KDDIでは作業の切り戻しを行ったが、位置登録要求の再送が大量に発生。VoLTE交換機や加入者DB(データベース)の輻輳(ふくそう)に加え、加入者DBのデータ不一致が連鎖的に発生し、通信がしづらい状況が続いた。
設備への負荷軽減を目的としてトラフィックの流量制御やデータ不一致の修正が実施されたが、負荷は十分に軽減されなかった。
そこでKDDIは4日、不要な過剰信号を送出していたVoLTE交換機を特定し、切り離しを実施。結果として、音声通話やデータ通信が回復した。
ここまでを「(障害の)全体像」とした髙橋氏は、続いて詳細を説明。東京の多摩に設置されている全国中継網ルーターのメンテナンス作業中、ルーターの経路を誤設定したことにより、上りの信号は通るが、下りの信号が通らないという状況が発生した。
これによってネットワーク内の再送が急増し、多摩のVoLTE交換機で輻輳が発生。多摩以外の拠点にあるVoLTE交換機も(多摩の交換機と)同じ構造になっており、全国の中継網を介して分散処理を行っているため、同様の輻輳が他拠点でも起きたという。
続いて髙橋氏は、加入者DBの輻輳に話を移した。VoLTE交換機とモバイル網の設備である「PGW(Pゲートウェイ)」は、再送ごとに加入者DBの認証を行うかたちになっている。今回、PGWから加入者DBに過剰な信号が送出され、加入者DBの輻輳につながった。
その後、KDDIは加入者DBの負荷を軽減するために流量制御をかけたが、輻輳は完全に解消されなかった。同社が原因を探ったところ、一部のVoLTE交換機が過剰な信号を出し続けていることが判明。全国にある18台中6台のVoLTE交換機を切り離すことで、端末からの再送が収束し、輻輳は解消された。
原因分析と再発防止策
髙橋氏は障害の起因となったルーターの経路誤設定について、「メンテナンス作業時には、作業の事前準備として、『管理ツール』『確認項目』『承認方法』というものがあるが、まだまだ不十分だったと反省している」とコメント。
続けて、障害が大規模化した原因として、「特殊なネットワーク状態での輻輳制御が十分考慮されていなかった」ことを挙げた。
障害が長期化した原因については、「複雑な輻輳となっており、そういった輻輳から復旧させる手順が確立されていなかった」とコメントした。
KDDIでは、今回の通信障害を受け、通信ネットワークの安定化と対応強化を目的として「組織横断的な体制を構築した」(髙橋氏)。
髙橋氏を責任者とする体制では、「通信基盤強化並びにお客様対応強化対策会議」を置き、その下に、「作業品質強化」「運用強化」「設備強化」「お客様対応強化」という4つのWG(ワーキンググループ)を置く。
また、全社横断的に、「運用部門」「技術・建設部門」「カスタマーサービス・広報部門」「営業部門」が連携し、今後のサービス向上に取り組んでいくという。
再発防止策としては、たとえばメンテナンス作業において、作業手順書の管理ルールや作業承認時のチェック方法などを見直すなど、要因ごとの対応を進めている。
障害の大規模化や長期化を防ぐため、VoLTE交換機の輻輳検知ツールや輻輳解消ツールの開発も進める。髙橋氏は、「今後、総務省との電気通信事故検証会議が行われる予定。そこでの議論の結果も踏まえて、さらなる取り組みを継続していく」とコメントした。
ユーザーへの返金対応
ユーザーへの返金については、271万人を対象とした約款返金に加え、3589万人を対象とした「お詫び返金」(一律200円)も実施される。この「お詫び返金」は、「本件の重大性やお客さまへの影響の大きさを真摯に受け止めたもの」(髙橋氏)。
約款返金と「お詫び返金」をあわせると、総額73億円の返金となる。返金方法はWebサイト上で掲出されるほか、新聞各紙でも案内される予定。
対象のユーザーには8月中旬以降、順次SMS(ショートメッセージサービス)で案内されるが、フィッシング詐欺の可能性を考慮し、「リンク先のURLを記載しない」「個人情報の入力を求めない」方法で送付されるという。そのうえで、9月以降、請求額から返金額が減算される。
加えて、髙橋氏を含む関係役員は、報酬を自主的に返上する。髙橋氏は20%を3カ月分、関連役員2名は10%を3カ月分、関連役員6名は10%を1カ月分返上する。
障害発生の原因となった「手順書のミス」とは
――今回の通信障害について、髙橋氏としては、「防げるものだった」という認識なのか。
髙橋氏
私としては、防げたもの、あるいは防がなければいけなかったものだと思っています。
今回「設定ミス」と言っていることについて、基本的には「ルート変更に必要なファイルはこのファイルを使って作業しなさい」という指示をしていますが、その作業における指示のミスです。
この指示の内容通り、オペレーターが設定しましたが、それが原因で今回の障害につながりました。
つまりその前段階で、事前の確認作業をもう一段階深くやっておけば、この障害は防げたのではないかと思っています。
――メンテナンス作業において指示のミスがあったという話だったが、本番環境を適用する前に、テスト環境でのシミュレーションはなかったのか。
吉村氏
手順書はマスター手順書というかたちで、本番環境と、シミュレーションしたテスト環境で、手順をすべて確認しています。
手順を確認した手順書が2種類あり、古い手順書と新しい手順書があり、今回は古い手順書のほうを間違って指示してしまったかたちになります。
古い手順書も古い環境では試験していますし、新しい手順書は新しい環境で試験をしていて、どちらも手順書としては正しいものです。ただ、指示するものが間違っていたというのが今回の事象となっています。
――手順書のミスについてもう少し詳しく教えてほしい。
吉村氏
少し専門的な言い方になりますが、ネットワークのルーティングのポリシーに変更があり、手順書の変更が発生していました。
したがって、新しい手順書を使う必要がありましたが、古い手順書も選べるような状態になってしまっており、それを受注してしまいました。これは私たちの管理にも問題があるということで、再発防止に努めたいと思います。
作業者は手順書に沿って作業をきちんとやっていましたので、作業者に対しても悪いことをしてしまったと感じています。
――ミスを防ぐような体制はあったのか。
吉村氏
手順書に基づいてどういう作業をするかということについて、必ず承認作業があります。
その作業のなかで、手順書が最新のファイルかどうかという確認はしましたが、承認のなかでミスに気づきませんでしたので、目で見るだけでなく、システム的なもので確認できるようなかたちも考えていきたいと思います。
――現状では、承認の方法は目視だけということか。
吉村氏
今回の手順書は最新かどうかということについては、口頭の確認をやっていました。
上位の人間が確認するときも、差分についてエビデンスをもって確認するということを、確実にしたいと思っています。
トラフィックは通常の7倍に
――今回の通信障害が拡大した致命的な原因を、あらためて教えてほしい。
髙橋氏
先ほどお伝えした通り、今回の障害の原因はルーティングの設定ミスに伴う急な輻輳です。
そして、障害発生時、15分間にわたって通信断が発生した時間がありました。僕も実は、障害が起こった後にオペレーションセンターに行っていろいろ話を聞きましたが、今回のルートの誤設定をしたあと約1分くらいで、VoLTEの交換機が輻輳していたと。
そのタイミングでは、オペレーションセンターでものすごいたくさんのアラームが出始めていたので、15分間という数字は、設定を戻すまでに時間がかかってしまったと思っています。
その後、VoLTE交換機の輻輳について、リセットをしながら直す段階でバックアップファイルが壊れて生成され、それがなかなか発見できなかったことで障害の長期化につながりました。そのあたりはもう少し早く突き止められたのではないかと思っています。
――VoLTE交換機のバックアップファイルが壊れていたという話だったが、これはなぜ壊れていたのか。
吉村氏
バックアップファイルは定期的に作られています。輻輳が起きているときにバックアップファイルが作られて、ファイル自体が異常なものになっていました。
――先日の会見の際、アクセス集中が少なくとも2倍以上という話だったが、15分の通信断でどれくらいの信号量増加になったのか。
吉村氏
ログなどを見まして、通常と違う7倍のトラフィックが、最初の数分の間に起きていました。端末からの再送もありますが、システム内での再送もあり、あわせて7倍というかたちです。
――たとえば災害などに伴う障害でもネットワークへの影響があると思うが、この7倍というのはそういったケースに比べても大きな数字なのか。
吉村氏
輻輳が発生したとき、だいたい2倍~3倍くらいのところまでは想定されています。
VoLTE交換機のところにトラフィックが行かないよう、ネットワークゲートウェイというもので絞っていますので、実際には2倍くらいまでしかトラフィックが行かないようになっています。
ただ今回は、ネットワークの設定の誤設定により、そのゲートウェイよりも後ろの部分でこの再送が発生し、7倍というトラフィックになりました。
髙橋氏
“門番”として存在するゲートウェイ自体が再送を繰り返してしまうという、我々からすると想定できなかったトラフィックがかかってしまったようなかたちです。
障害発生後の周知に関する課題は?
――通信障害の発生状況について、随時Webサイトで更新していたと思う。ただ、障害のなかでそもそもWebサイトにアクセスできないという事態が生じ、多くのユーザーが実店舗に押しかけるようなことが起きた。情報発信に関する考えを教えてほしい。
髙橋氏
今の話に関しては、お客さまには本当にご迷惑をかけたと思っています。各方面からもいろいろとご指摘をいただいています。
災害対策をしながら同時に発信するというのはなかなか難しいことですが、大きく見直していく必要のあるポイントです。
そのために、障害発生時に対策を行う専門チームを育成しながら対応していこうと思っています。
あわせて、障害に応じて、どの手法を使ってお客さまにお伝えするのがいいのかという判断をする必要があります。
今回の場合は音声通話に大きな影響がでましたが、どんな媒体を使うか判断し、障害の状況をお客さまに丁寧に伝えていくのが我々の役割です。
たとえば今回は、auショップに「こういう状況だ」ということをメールでお伝えして、貼り紙をしていただいたということですが、店頭のサイネージを使うとか、障害対策として自社のページを作るとか、工夫していきたいと思っています。
――今回の広報対応について、どのあたりが特に不十分だったと考えているのか。
髙橋氏
障害が起こってから、私が皆さんの前で会見をしたタイミングがありますが、まずそれが適切かどうかというのが、ひとつ課題に上がっていると思います。
我々通信会社にとっては、障害の原因がはっきり分かってから社長会見するというのが、今までの通例でした。ただ、これだけ重大な障害になった場合に、もう少し早いタイミングで、わかっていることを伝えたほうが良かったのではないかというご指摘はいただいています。
障害が起こってから非常にバタバタしていて原因もつかめない状況だったので、あのタイミングでも我々としては結構ギリギリだったんですが、こうしたタイミングの問題がまずひとつ目にあります。
2つ目としては、やはりお客さま目線ということで、そもそもスマートフォンや携帯電話の通信が使えないお客さまに対して、状況をどう伝えるのかということを課題に感じています。
3つ目の課題は、通信事業者として「復旧」の定義を明確にすることです。
復旧の1日前に、「工事を終了します」という時間を皆さんにお伝えしました。その背景には、「復旧工事が終わる時間はお知らせすべき」という意図がありました。
ただ、「その工事後も、安全性を確認してから復旧を宣言します」とWebサイトに書いたんですが、工事終了=復旧というようなイメージで伝わってしまって、お叱りの声をいただきました。
ほかの事業者さんにも影響することだと思いますので、しっかり対応したいと思います。
影響人数の算出方法は? 加入者数への影響は
――影響人数について、どのようなかたちで算出しているのか。
髙橋氏
非常に難しい数字の出し方です。
他社の例を出してはいけないんですけれども、昨年のドコモさんの障害のとき、影響人数を推定値として出されています。総務省さんにもいろいろお聞きして、今回はそれと同じ手法で算定しています。
音声通話のほうは、24時間を5分刻みにしたうえで、平常時と異常時の音声通話のトラフィックを比較し、5分ごとに見ていった最大値を推計値として出しています。
データ通信については位置登録情報というものがありますが、これについても音声と同様、位置登録情報を5分ごとに見て、平常時と異常時を比較した差分によって影響率を導き出しています。
――今回の通信障害によって他社に流れたユーザーもいると思うが、そこをどう取り戻すつもりなのか。
髙橋氏
今回、長時間にわたる障害を起こしてしまい、お客さまの信頼は失ったと思っています。
足元の数字を見ますと、実は解約の数字はそれほど大きくなっていないのですが、新規のユーザーさんに関しては、その影響が出ています。
信頼を回復するには時間がかかると思いますが、再発防止をしっかりやって、長年お付き合いいただいているお客さまの信頼回復を優先しながら、新しいお客さまにも来ていただくということに、全社を挙げて取り組んでいきたいと思っています。
ユーザーへの返金について
――「お詫び返金」について、一律200円とした根拠を知りたい。
髙橋氏
まずは約款返金というものを先に明確にしました。音声通話を24時間以上利用できなかった場合、約款上の規定があります。24時間で1カウントとして、今回は61時間なので2カウントになります。
つまり2日分ということですが、お客さまごとの基本料金の日割り分を日数分かけて返金する、というのが約款上決まっています。で、それの平均額が1日あたり52円というのが、今回出てきた数字になります。
「お詫び返金」については、我々もかなり悩みました。約款上は返金を義務付けられていないものなので、約款返金に加えてどこまで返金をするかという悩みはありましたが、音声通話の障害であったということから、先ほどの約款返金の52円という数字をベースに検討しました。
約款上は2日間ですが、「お詫び返金」の場合、約款上の規定に縛られる必要はありません。(障害の影響時間は)実際は61時間ということでしたから、3日間。よって、52×3で156円というのが最初に出てきまして、そこにお詫びの意味も込めまして、200円という数字にさせていただきました。
どの範囲のお客さまにお返ししようかということも検討したんですけれども、ま基本的には携帯電話、スマートフォン、それからホームプラス電話のお客さまも対象として、幅広く返金しようと考えました。
――2013年に発生した障害では、返金額が700円だったと思うが。
髙橋氏
2013年にLTE、今の4Gがスタートしたころに、障害を起こしたことがあります。
このときはお詫びとして700円を返金しましたが、今回とは異なり、データ通信への影響が非常に大きかったんです。ほとんどの方が、非常に多くのデータを使う6980円の定額制のプラン「LTEプラン」に入っていて、その日割り分3日分をお詫びとして返金しました。
今回は音声通話を長時間使えないことに対するお詫びとしまして、約款返金と同様に、音声サービスを勘案した料金プランの日割り分、52円の3日分を返金するということにしました。
今回の返金対象には、IoTやMVNOのお客さまは含まれていません。
――今回の補償や追加対策にかかるコストは、どのようなかたちで誰が負担することになるのか。
髙橋氏
73億円という返金額は、やっぱり経営に対して影響がないとは言えないような額です。ただ、このあたりは我々の経営努力でカバーしながら対応していくことを考えています。
設備投資については、これから始まる事故の検証委員会のなかで、いろいろとご指摘いただくことになろうかと思います。我々は年間で6000億円以上の設備投資を行いながらネットワークを構築しておりますので、そういったかたちで投資を続けていきたいと思います。
――経営努力とは、具体的にどういったものなのか教えてほしい。
髙橋氏
企業経営のなかで、売上を最大にして経費を最小にする努力はしています。そういった取り組みのなかで、73億円を吸収できるよう努力していく必要があると考えています。
――今回の補償が、ユーザーの通信料に今後上乗せされる可能性はあるのか。
髙橋氏
今回の補償が、ダイレクトにお客さまの料金に転嫁されるということにはならないと思います。
――総額73億円の返金ということだが、2013年の返金を超えて、御社としては過去最大額になるという理解で合っているか。
髙橋氏
今おっしゃった通り、過去最大の返金額になっています。
2013年の返金の際は、約款の返金がありませんでしたので、お詫びの返金だけでした。そのときは約10億円の返金額になっています。
――法人向けの返金については。
髙橋氏
法人さんも、約款に基づいてご契約いただいているものについては、当然「お詫び返金」の対象になります。ですから、73億円の中には、法人向けの返金も含まれています(※編集部注:KDDI広報によれば、相対ではなく約款に基づいた契約をする法人回線のうち、音声回線の返金対象は57万回線で、お詫び返金の対象は490万回線)。
――約款以外の、損害賠償も含まれているのか。
髙橋氏
それは個社とのお話がこれからあると思いますので、そのなかでわかってくることです。今の段階では、それは73億円という数字には含まれていません。
Android端末とiPhoneの違いは?
――Android端末は音声通話・データ通信ともにできなかった、iPhoneはデータ通信ができたという話があった。これは何が違ったのか。
髙橋氏
まずデータサービスの件について、今回、データサービスを司っている設備に不具合はありませんでした。VoLTE交換機に障害が起きているときでも、データ通信が可能だったというのは確認済みです。
ただ、iPhoneとAndroid、あとはAndroid端末のメーカーによっても挙動が違うというのは事実です。
かなり昔の仕様ですが、VoLTE交換機の接続ができない場合にデータ通信をどう取り扱うか、という規定は、一応我々のスペックとしてはあるんです。
それから時代がだいぶ変わり、スマートフォンがたくさん世に出るなかで、グローバルの仕様をもって彼らが規定する時代になってしまったんですね。
我々からすると、強制の仕様にはなっておらず、メーカーさんごとに決められた規定を我々が受け入れるかたちです。iPhoneであればグローバルですべて同じ仕様ですし、Androidも同様です。我々としては、端末のモデムなどによって、データ通信が利用可能な頻度や時間に差分があったと確認しています。
緊急通報のローミングに対する考え方
――最近では「緊急通報だけはローミングできるようにしよう」という話もあるが、加入者DBで輻輳が起きた場合、そういったことは可能になるのか。
髙橋氏
東日本大震災のときにもこうした課題は出てきましたが、なかなかキャリアのなかで解決できていない事項です。
ただ、ここについては、NTTさんやソフトバンクさんも積極的にやろうということで、総務大臣も「課題がある」とおっしゃっているので、我々は実現する方向で考えたいと思います。
ただ、仮想化の世界でして、実現するにはいろいろ選択肢があります。たとえば119番通報の場合、通報者からの通話が途切れたときに、通報を受けた側から呼び返すしくみがありますが、これもローミングで実現できるのかとか、そういったことも踏まえながら議論が進むものと思っています。
今後の再発防止に向けて
――今回の障害を受けて構築したという「組織横断的な体制」について、考えを教えてほしい。
髙橋氏
今回の障害が起きて、かなりの緊張のなかであのオペレーションしてくれている人たちが社内にいますので、現場に行っていろいろお話を伺ってきました。
ネットワークの運用者やVoLTE交換機を運用するメンバーなどがいて、その連携が取れていなかったとは感じていません。
ただ、KDDI本体のメンバーと、運用を担当しているKDDIエンジニアリングのメンバーがいて、その間に何か齟齬があると困るなと思ったので、そのあたりも話を聞いてきました。
彼らはその間の連携については、「きっちりワンチームでやってきた」と宣言していたので、そこは安心した部分もあります。一方、そういった会社間の連携なども、もう一度初心に戻って見直したいと考えています。
――御社はネットワーク拠点を集約化する方向で動いてきたと思うが、ネットワーク拠点の分散化をひとつの対策として考えることはあるのか。
髙橋氏
実は何年か前、大きな事故ではありませんが、西日本のほうでVoLTE交換機に係る障害がありました。
それを契機として、全国の中継網を使って処理を分散するという意味合いで、全国にメッシュを組んだというのが今の状況でした。
今回はそれが“あだ”になり、一カ所で起こったことが全国へ伝播してしまうということになりました。
設計思想自体は間違いではないと思っていますが、結果的に障害が全国に広がってしまったということで、全国に波及しないような収容設計も検討したいと考えています。