ニュース

ドコモの通信障害で田村副社長謝罪、原因と今後の対策を説明

 NTTドコモは、10月14日に発生した音声通話やパケット通信が利用しづらい状況について報道陣向けに緊急記者会見を実施した。

 会見には、NTTドコモ 代表取締役副社長の田村穂積氏、同 常務執行役員 ネットワーク本部長の小林宏氏、同 サービス運営部長の引馬章宏氏が登壇した。

 田村氏は「音声通話・データ通信が利用しづらい事象について、ご迷惑をおかけしたユーザーや多くの方にご迷惑・ご心配をおかけすることをお詫び申し上げる」と陳謝した。

IoTネットワークの工事が原因に

 田村氏は、10月14日にドコモネットワークで発生した通信障害は、IoTサービスのネットワーク工事を行った際に、IoT機器の通信量が増大しネットワークに輻輳(ふくそう)が発生したことが原因と説明。

 障害は、14日の17時頃から発生。これによりネットワークコントロールをしていたが、19時57分に解除。翌15日5時5分には5G/4Gは回復したものの、3Gについては現在も一部で利用しづらい状況となっている。

 同社では、IoTサービスにおける加入者・位置情報サーバーを旧設備から仮想化された新設備へと切り替える工事を実施していたしかし、この際に不具合が発生。新設備の情報を旧設備に戻す作業を実施したところ、旧設備側が処理しきれずに輻輳が起きた。

影響数の算定難しく

 IoTサービスのサーバーの新設備への切り替えの際に発生した不具合の対処として、旧設備へ切り戻す作業を実施。この際に接続されるIoT端末に対して位置登録を促す措置を実施した。

 携帯電話ネットワークの仕組み上、デバイスの位置が登録されないと通信はできない。旧設備に戻しても通信を続けるには、設備側でIoTデバイスの位置を認識する必要があるため、位置登録を行う必要があった。

 しかし、14日17時頃、旧設備の性能上の問題で、大量の信号を処理しきれなかったことで、位置登録信号が再送されトラフィックが上昇し通信がしづらくなった。そこで17時37分に、全国のネットワークで位置登録への規制を行うネットワークコントロールを実施した。

 田村氏によると音声サービスは、交換機の輻輳により利用しづらくなった。一方のパケット通信サービスは、ユーザーが位置情報の更新が必要なる移動をすると信号交換機の輻輳により位置情報の更新ができず、利用しづらくなったという。

 こうした事象は、ユーザーの目から見るとたとえば、スマートフォンの画面右上に表示される「4G」や「5G」といった表示が消えたり「圏外」と表示されたりといったかたちで現れることになる。

 14日19時57分頃にネットワークコントロールを緩和したが、再び通信が混み合った。IoTのトラフィックに加えて回復したネットワークに一般のスマートフォンなどの通信が重なった結果だという。

 位置登録ができなかった(=通信ができなかった)ユーザーはおよそ200万という。この数字は位置登録ができず、ドコモ回線で通信ができなかった事象の規模を指す。位置登録ができた場合でも、ネットワークが混んでおり通信しづらい場合があり、影響規模全体を示すものではないとしている。

 一方で同社では、正確な影響を受けたユーザー数の算定が難しいとして、対前週比で音声通話で14%、データ通信で4%の利用減があったと紹介した。

 15日20時時点で5Gと4Gは回復したが、3Gは現在も一部利用しづらくなっている。田村氏は今後の再発防止策として、通常運用とは異なる状態での処理能力の再確認と確認した処理能力を踏まえた適切な切り替え手順への見直しの2点を上げ、10月下旬にも完了したいとした。

質疑応答では

――なぜ3Gのみ現在も通信しづらいのか?

田村氏
 3Gは一部IoT端末機器が残っており、切り替え中。もうしばらく時間がかかる見込み。

――音声通話とパケット通信が影響を受けているということはすべてのユーザーに影響したのか

小林氏
 すべての端末を含めて200万ユーザーということ。

引馬氏
 影響ユーザー数の算出が難しい。対前週と比較して昨日~本日未明までで15%ほど音声の利用が全国で減っている。パケット通信では、同じく4%利用が減少している。パケットは音声サービスほど影響を受けていないが、ご迷惑をおかけした方にはお詫び申し上げたい。

――20時頃の制限解除後も繋がりにくかったがなぜか?

田村氏
 20時頃に一部復旧と報道したが、利用が増えて通信が混み合い、一部でつながりにくかった。ユーザー側で何度も接続を試みるなどの結果、トラフィックが通常よりも3倍ほど伸びたことがある。

――未明であれば、携帯電話の使用も減るのではないか。なぜ5時まで復旧が伸びたのか

引馬氏
 今回は、IoTデバイスのデータ移管が引き金になった。ネットワークに中に切り替えきれていないデバイスが残り、新設備から旧設備に戻していた。この作業がかなり伸びた。スマートフォンなどと違い、IoTデバイスは、時間に関係なく通信が発生するため、復旧が朝方まで伸びてしまった。

――切り戻しの際、通常と異なるIoTデバイスへの位置登録を行ったのはなぜか

引馬氏
 今回は、意図的に新設備から旧設備に意図的に加入者サーバーを動かす必要があった。新設備には位置登録がされているが、旧設備に位置登録をしなくてはいけなかった。通常はありえないことだが、工事の手順としては正しい。

――その作業で輻輳が起きたというのはその結果を予測できなかったということか?

田村氏
 今回のような大規模工事の実施に際しては、手順書を作成している。今回のような切り戻しの発生を予見してその手順書も作成し、ある程度シミュレーションし備えている。今回は結果として、想定以上のトラフィックが発生し輻輳につながった。

――東京都港区では、22時~6時までまったく通信できなかった。なぜこうなったのか?

小林氏
 今回の事象は、音声の交換機・信号交換機の輻輳の結果。その交換機が受け持つ場所によっては位置登録できる頻度が低かったり、高かったりと一律ではない状況だった。早期復旧に向けて努力したが、5G/4Gについては朝方までかかってしまった。

――19時57分以降のネットワークコントロールはどのような形で何%だったのか

田村氏
 一時的に最大で100%のコントロールを実施した。この規制は順次緩和して、2時間30分ですべて解除した。

引馬氏
 17時37分頃に100%の規制を実施。19時57分に解除した。つながりにくい状況がその後も発生しており、IoT端末の切り戻しも実施する中、影響が最小限になるよう(規制の)措置はしていた。

田村氏
 最終的な規制全解除は15日5時5分ということになる。

――影響人員について、何人に影響が出たのかを教えてほしい

引馬氏
 一人が何度も発信することもあり、呼び出しの数は見ているがそれは何人のユーザーからなのかが特定できていない。何人かということはまだ算出することができていない。

 前出の15%や4%という数字は、ドコモのネットワークの中で音声通信が正常に完了し、通話が開始された数が前週として比較して15%、パケットはネットワーク内のデータ量ということになる。

――加入者位置情報サーバーは何台あるのか? 今回の更新は初めて実施されたのか

小林氏
 旧設備は2カ所にあるサーバー。同様に2カ所、バックアップ2カ所の新設備に切り替えるというのがもともとの工事。それに失敗したため旧設備に戻す際に事象が発生した。サーバーの台数はご容赦いただきたい。

――14日7時26分に不具合がでたとのことだが、16時36分まで何もしない状態だったのか

小林氏
 切り戻しを実施するために、データを旧設備に切り替えるなどの準備をしていた。その準備ができた16時36分に位置登録を促す措置を実施した。

――2つのサーバーで全国をカバーしていたために、一度に位置登録せざるを得なかったということか? 分散してはできなかったのか?

小林氏
 台数はあまり関係ない。今回は位置登録を促す措置で一斉に手続きを取ろうとしたことが今回の事象に至った原因だ。

引馬氏
 今回もいくつかのグループに分けて分散するという措置をとっていた。分散単位も旧設備側の処理能力を見積もっていたが、それを見切ることができておらず、旧設備側で輻輳してしまい、全国のネットワークに波及してしまった。

――電話がかけられない、ネットができないというユーザーが相次いだが、全利用者に影響したといえるのではないか

田村氏
 パケット通信については、位置情報が必要な移動をした場合について影響を受ける。そのため、全ユーザーが今回の事象に遭遇したわけではなく、位置登録ができなかった200万ユーザーに影響したと考えている。

――これは大きな事象と捉えているのか?

田村氏
 今回は影響エリアが日本全国となった。あわせて200万ユーザーになった。十分影響があったと認識している。皆様方にご迷惑おかけし申し訳ございませんでした。

――移動したユーザーに影響が出たというが、リモートワークが広まる中で、今回の事象を受けて今後どういったことに気をつけていくか

田村氏
 お客さまに対して多大なご迷惑をかけて申し訳ない。原因究明と再発の防止、より良いネットワークを作るために努力していきたい。

 今後については、テレワークが中心となる働き方では通信の安定性を求められる。今回の反省を踏まえて、通常運用と異なる状況でもある程度通信を確保したい。大規模工事においても切り替え手順書や万が一切り替えが上手く行かなかった際の手順書の部分を抜本的に見直していく。

――20時頃に通信が復旧したが、利用制限が続いたが、これは妥当だったのか? 長期化を防ぐ手立てはなかったのか

小林氏
 今回はIoT端末からの位置登録情報がかなり大量に発生した。ネットワーク全体の動きが危なくなると認識したため、その信号を制御してネットワーク全体を守るという手段をとった。今後、制御方法をもっと進化させて個別に制御する方法が必要だと感じている。

 IoT端末を小分けにし切り替えたが、その中で旧設備の処理能力を考えて安全に切り替えるために時間がかかってしまった。3Gも安全にモジュール切り替えをしているのでもうしばらく時間がかかる。

――3Gの復旧が遅いのは、5G/4GよりもIoTデバイスが多いためか?

小林氏
 一概には言えない。IoTユーザーのシステムがどういう形かにより切り替えの仕方が変わってくる。今切り替えしているユーザーは多くの端末を一気に切り替えられないことがあり、そこに合わせて作業しており、時間がかかっている。

――利用者の多い5G/4Gを優先しているように見えるが?

小林氏
 そういうことはない。すべてのネットワークで同時に作業していた。しかし慎重に行くところとスピーディに行けるところとさまざまあった。速やかな対応の結果、5G/4Gは復旧したという状況。

――3Gの復旧見通しは? 今日中にはできないのか?

引馬氏
 鋭意対応中だが、もうしばらくかかりそうだ。明確に回復予定時間は申し上げられない。(IoTの)利用形態によってこまめな対応が必要で時間が伸びている。

田村氏
 長期間の影響を避けるためにできる限り早く復旧したいと考えている。長引いていて申し訳ありません。

――どのくらいの数のIoTデバイスが位置登録をしようとしたのか? 19時57分に復旧を始めた後に混み合ったが、これはIoTの影響かそれとも一般のユーザーの利用が影響したのか

引馬氏
 影響した端末の規模としては、推定でおよそ20万程度のIoTデバイスを切り戻した際にうまくいかなかった。それらのデバイスから大量の位置登録信号が発せられ今回の事象が発生した。

 IoT端末以外の一般のユーザーのトラフィックも発生したため、そこが影響している。

――トラフィックというのはデータ通信なのか? 20時以降に音声サービスの利用が増えたのはなぜか?

引馬氏
 ネットワークコントロールを緩和したことで、電話やデータ通信ができるようになりそれによって数が増えた。

小林氏
 一斉に(復旧の)お知らせをしたため、利用が増えたのではなく、ユーザーの方でピクトの表示などが正常に戻ったことに気づいただとか、パケットの通信が始まって利用が増えた。しかしIoTの高い位置登録トラフィックが混じっており、混み合っている状況だったことでそれを伝える必要があったので(Webサイトでの案内の)記述をした。

――MVNOにも影響が出たが、ドコモが把握している影響規模は?

田村氏
 MVNO事業者に影響が出たことは把握しているが、具体的に何社かは現在把握していない。

――総務大臣から詳細な報告を求めると言及があったが、今後の対応は

田村氏
 総務省には14日17時半頃に第一報を入れており、それ以降、適宜情報提供している。影響範囲や電気通信事業法にのっとって総務省で判断されると考えている。真摯に対応していきたい。

――緊急通報ができないということがあった。アプリなど個別の実害について把握しているか?

田村氏
 緊急通報については、一部機種において発生したことがあったと認識している。アプリが弾かれたということはまだ認識していない、そういう報告があれば適宜対応していきたい。

――総務省とのやり取りについて、今回は重要な事故か?

田村氏
 そこの判断については、影響規模、影響時間などルールがあり、そこにのっとって総務省で判断される。今回の影響規模については客観的にわかるものとして、位置登録ができなかった200万ユーザーと考えている。

――IoT機器からの想定以上の通信があったということだが、どういった背景なのか?

引馬氏
 切り戻しの際の処理能力の見積もりの甘さで、旧設備に移れず繰り返し位置登録信号が発せられた。まだちゃんと分析できていないが、一般のスマートフォンよりもIoT端末のほうが多くの信号を出すように見える。詳細は今後分析して、しっかりした対処をシていきたい。

――具体的にどんなサービスで影響が出たのか 総務省に影響規模を報告する際のその算定の考え方は?

引馬氏
 パケット通信の中身を見て、どんなユーザーがどんなサービスを利用しているかは把握できていない。

田村氏
 個別サービスについては、たとえばシェアサイクルについては位置登録できなかったことが起因していると想定している。そのため200万ユーザーを影響範囲としている。総務省への報告は、200万ユーザーをベースとする。

――20時頃に報道各社から完全復旧と報じられていたが、ドコモ発表のものか? それが全体の復旧に影響したのか?

田村氏
 回復報は、最大で100%規制をかけたがその規制を解除した時間ということで19時57分に復旧したと記載した。回復報以降、利用が増えて一部つながりづらくなったと認識している。

――ドコモWebサイトに掲載される前に報道があったようだが?

田村氏
 具体的なWebサイトへの記載時間については、後ほど回答差し上げたい。

――原因となったIoTデバイスの台数は20万台ということだが、少ないように思える。今後の5G時代に不安を感じるが?

小林氏
 新設備から旧設備へ切り替える際の最初の操作で20万台切り替えようとした。新設備は仮想化しているが、旧設備はされていない。よって処理能力が低かった。そのため、(より高い能力の)新設備に切り替えたかったということだ。

――仮想化された新設備であれば、20万台でも許容できるか?

小林氏
 新設備のほうが処理能力も性能も高い。耐えられるのではないかと思う。

――輻輳が起きたメカニズムや細かい箇所について教えてほしい

引馬氏
 旧設備は、IoT専用設備で、一般ユーザーの加入者情報は収容していない。現状として、IoTだけ、スマートフォンだけに規制をかけるということができない。一律にネットワークコントロールせざるをえなかった。

 旧設備側で輻輳し、位置登録処理が再送され、音声交換機と信号交換機の両方で輻輳が発生した。今回の旧設備はIoT専用で全国に2カ所。全国のIoTデバイスがそれらに対して、位置登録信号を送信ししたため、全国的な影響が出た。

――切り戻しの必要になったきっかけである新設備の不具合はなんだったのか?

引馬氏
 新設備の不具合は、国内だけではなく海外のユーザーの情報も国内で管理している。新設備切替時に海外ユーザーのIoTデバイスをローミングで新設備に登録した際に受け付けられないということが、いくつかの海外キャリアで発生したというもの。

――イレギュラーなケースであまり発生しないものか?

引馬氏
 登録できなかった原因は究明する必要がある。70カ国ほどで利用されており、それぞれの国のキャリアから来る信号が想定していないパラメーターが入っているなどがあった。全ては解析しきれていないが、世界中のキャリアとIoTに関する加入者位置情報サーバーへの登録について今一度しっかり振り返って対応していきたい。

――テレワークなど浸透しつつあるが、中長期的な障害対策について聞かせてほしい

田村氏
 テレワークが進む中、トラブルは絶対に起こさないというのが大前提だと思っている。あってはいけないが、万が一トラブルがあった際には影響が短時間で済むように、今回の反省も踏まえて取り組んでいく。

 ヒューマンエラーを防ぐためにネットワークオペレーションにAIを活用、在宅環境でもネットワークオペレーション監視業務ができるようにしたい。鉄塔のサビの状況をドローンで行い、高所作業リスクを減らすなどより強化しながら対応していきたい。

――3Gの状況について。現在も通話など不具合があるということだが、どの程度のものか?

引馬氏
 14日の5G/4Gと比較すると、それほどの輻輳状態にはなっていない。3Gの信号処理装置が一時的に処理不可になり処理規制がかかるが、信号数が定常的に多いわけではない。信号処理ノードが規制をかけたり解除したりという動作を繰り返ししている。

 旧設備から新設備への移行が進んでおり、影響が出ている装置の数は徐々に減ってきている。状況としては沈静化する方向に向かっている。きめ細やかな対応が必要で、時間の算出は難しい。

――19時57分の回復のアナウンスがあったことによる、トラフィック増大が夜に至っても通信しづらい原因となったのか?

引馬氏
 IoT端末のほうが影響度が大きかった。ネットワークコントロールの緩和により、使える状態になったため、音声や通信のやり取りが増えたことは人気しているが、それとIoT端末を比較すると、IoTの影響度が大きかったと考えている。

――影響規模の数字の定義について。位置登録不可の200万ユーザーはMVNOも含まれているのか ユーザーにどういう症状があるのか

引馬氏
 200万ユーザーにはMVNOも含んでいる。端末からネットや音声を流したりできない。端末によるがたとえば圏外の表示が出たり、「4G」や「4G+」とか出ると思うがそれが出なかったりと、NTTドコモにつながっていることがわかる表示が出なくなる。

――3Gの回復が遅れている理由として、3Gのほうが新設備に移しづらいということか?

引馬氏
 IoT機器でユーザーがさまざまなサービスを展開しているが、4Gのユーザーと比較して細かい単位で見ていかなければいかない利用方法になっている。ネットワークが3Gだからというのではなく、ユーザーがどのようなサービスにIoTを用いているかによる。

――新設備へ切り替える時期の見通しは?

田村氏
 今後の課題を2点あげたが、切り替えの手順書や社内基準の見直しが必要。10月下旬としているがなるべく早くと思っている。

 今回のような大規模行事は、100%可能でなければ切り替えはできない。処理能力の状況を見ながら適切なときに実施していきたい。年間でスケジュールを組んで計画しているので、急にはできない。かなり諸準備が必要。万が一何かあった際の切り替え手順書も必要。時期的に大きなイベントがないことも踏まえて時期を考えていきたい。

――20時過ぎの完全復旧の報道からトラフィックが増えたということだが、そのような表現がなければ、トラフィックが混雑が続くことはなかったのではないか?

小林氏
 20時過ぎの対応だが、IoT以外のトラフィックも入ってくることを想定しながら作業していた。ある程度の混雑は想定していた。ユーザーの通信を長時間妨げられないので、通信を通したが、混んでいるということをしっかり伝えなければいけないので、Webサイト上に掲出した表現とした。

――完全復旧という報道もあった

田村氏
 21時5分に一部復旧という文章を(Webサイトの)お知らせに掲出した。その内容によって一部つながりにくいということがあった。今後はなるべく分かりやすいようにというのが検討課題のひとつ。

――総務省に随時報告しているということだったが、ユーザーに対する報告は十分だったのか? 深夜には更新がないようだったが?

田村氏
 ドコモWebサイトのほか、ツイッターなどもある。21時以降については深夜ということと、大きな状況変化がなかった。ユーザー周知については、過去の事例でも、分かりやすい方法を考えてきた。今回は影響が大きい事象でもあったので、あらためて考えていきたい。