ニュース

ソフトバンク、12月6日の通信障害の影響は3060万回線

 12月6日に発生したソフトバンクの通信障害は、約3060万回線に影響を与えたことが明らかにされた。上場を受けた19日の会見で紹介された。

 原因は、18台あるパケット交換機(MME)のTLS証明書の期限切れ。エリクソン製の設備だけで構成されていた。同社では2019年6月までに複数メーカーの機器で構成する方針を決めた。

宮川CTOが説明
ユーザーに謝罪した

 障害が起きてから2時間、まったく原因がわからなかったと語る宮川氏。世界11カ国で同時刻に同じような障害が発生したこともあって、ソフトウェアバージョンをロールバックすることで復旧にこぎ着けた。

 障害の原因は、「MME(Mobility Management Entity)」、いわゆるパケット交換機のデジタル証明書(TSL証明書)の期限が切れたため。

 ソフトバンクでは、通信ネットワークを運用する東日本センターと西日本センターに、あわせて18台の交換機を設置しているが、全ての交換機が一斉にダウンしたため、障害の特定に時間がかかった。パケット交換機は通常、能力の30~40%程度しか使用していないが、これは、仮に災害などで2つあるセンターのどちらかがダウンしても、もう一方のセンターが処理を肩代わりできるようにするため。さらに「プール化」により、一部の機器が壊れても、別の機器でカバーできるようにしていた。

 しかし、デジタル証明書の期限切れという事態は、パケット交換機に繋がる他の機器にとっては、本当に通信相手として正規なものかどうかわからなくなることを意味する。ソフトバンクのコアネットワークでは、システム異常を検出すると、ひとまず再起動する、という手段を採るよう設定されていた。しかし再起動したところで、証明書の期限切れが修正されているわけではないため、ふたたびエラーに繋がる……というループに陥ってしまう。これが長時間の通信障害となっていった。

 一般的なネットワーク設備のデジタル証明書は、導入企業側から有効期限を確認できるようになっている。しかし今回障害を起こしたパケット交換機のデジタル証明書は、埋め込みソフトウェアとして組み込まれており、導入企業側では有効期限が確認できない状況だった。

 さらに4Gがダウンしたことで、通話や一部の通信を担当する3Gネットワークに多くの機器が殺到する形となり、いわゆる輻輳と呼ばれる障害に陥り、3Gネットワークが繋がりにくくなってしまった。

 パケット交換機のソフトウェアで、今回の障害を起こした「Ver.1.14」は2018年3月から導入が開始された。一斉に切り替わったわけではなく、18台のうち一部から導入され、しばらく旧版の「Ver.1.08」と併用され、問題がないことを確認した上で、今年4月26日からVer.1.14だけで運用されてきた。しかし通信障害が起きたことで、Ver.1.14からVer.1.08にいったん戻された形。現在はIoT向けの一部機能が利用できないという。

 暫定的な対策がいくつか実施される。ひとつは証明書の有効期限を確認する作業。もっとも重要な設備では既に点検を終えており、全国各地の基地局などを含む全ての設備での点検は年内に終える。テスト環境であるラボでは、今後、未来の日付でのテストを新規設備・ソフトウェアに対して実施する方針に切り替わった。

 また今回、復旧作業では、パケット交換機1台1台に旧バージョンのソフトウェアをインストールする必要があり、時間を費やすことになった。そこで年内にも、旧ソフトの緊急立ち上げにかかる時間を短縮する。

 恒久的な対策として、2019年1月31日までに、証明書の確認・更新ができるソフトウェアが導入され、ソフトバンク側で有効期限を確認したり証明書を更新したりできるようになる。またシステム異常を検出しても、これまでのような再起動だけではなく、異常レベルに応じて、稼働し続けつつ警告を出すようレベル感に応じた対策ができるようにする。

 そして交換機のマルチベンダー化を2019年6月30日までに完了させる。宮川氏は、追加する交換機が「過剰投資になる」としつつも、エリクソンだけに依存していた状況から脱却する方針を経営判断で決めたと説明。欧州系ベンダーと米国系ベンダーの2社のうちどちらにするか、現在検討中とした。