ニュース

KDDI、5月末のLTE通信障害で原因と対策を発表

 KDDIは、5月29日、30日に発生したLTEの通信障害について、原因と対策を解説する説明会を開催した。対象となったユーザーへのお詫びとして、利用料から700円が減算される措置がとられることが明らかにされたほか、5月中に決定していた設備投資額にさらに70億円を追加し、総額300億円を一連の通信障害対策に投資する予定も明らかにされた。

謝罪する田中社長
技術的な解説を含めすべて田中社長から説明された

 説明会にはKDDI 代表取締役社長の田中孝司氏が単独で臨み、技術的な説明から不備や原因、今後の対策やスケジュールまでが説明された。

3回の通信障害、LTE基地局制御装置(MME)のバグに起因

 KDDIが今回の会見で「一連のLTE通信障害」としているのは、4月27日、5月29日、30日の合計3回に分けて発生した、「4G LTE」のデータ通信における通信障害を指している。また、5月29日の通信障害では音声通話にも影響が及んでいる。いずれも復旧報が出され、通信障害のエリアや時間、影響人数などは公表されている。

 これら3回の通信障害は原因が同じで、LTE基地局制御装置(MME)のソフトウェア・バグに起因する。このため、4月16日から3回に分けて発生したiPhoneのメールの通信障害とは技術的な意味で原因は異なるが、対策に時間を要したことや、誤作動などを前提に設計する「機能安全」(フェールセーフ)への取り組みが十分でなかった点はどの通信障害でも共通している。

 MMEは、ネットワークの末端にあるLTEの基地局などよりも“上流”にある設備で、KDDIのネットワーク全体の中でも端末に近い場所でハブとして機能するなど、重要な役割を担う。MMEが担当するのは、実際のデータ通信のパケットの流れではなく、制御信号。端末からの接続要求に対する応答などの制御信号は、いずれもMMEを介してやり取りされる。

 MMEは全国に19台が配置され、今回の通信障害はいずれも東京・多摩に設置されたデータセンターのMME 01、MME 02が原因となった。このため、多摩のMMEが担当する東京都、神奈川県、山梨県のユーザーが影響を受けた。

4月27日、MMEに2つのバグ

 4月27日に発生した通信障害は、フラグメンテーション処理にかかるリセットバグが原因。このバグは、断片化されたパケットが60バイト以下だと、ネットワーク・インターフェイスカードが再起動してしまうというもので、初めて明らかになったバグだという。この時、問題の60バイト以下のパケットを、まれなケースとして3つ受信したため、片系に2つ、両系で合計4つのインターフェイスカードのうち、3つまでが同時に使えなくなった。そして、両系で捌くはずの処理が片系に集中、処理量が一定レベルを超えると発生するリカバリー処理のバグを誘発してMMEの主要な機能が使えなくなり、両系断、すなわちトータルシステムダウンに至った。

5月29日、ハードウェア障害に起因し前回の障害を再現

 5月29日に発生した通信障害は、4月27日の通信障害で原因となったバグを修正したソフトウェアを導入する最中に起こった。修正済みのソフトウェアを導入するにあたっては、ほかの場所で1週間運用して問題が確認されなかったため、全国で順次適用を開始。ところが5件目となる多摩のMME 01に適用している最中に、ハードウェアに障害が発生した。ここで、MME 01を以前の状態に戻す(リセットする)ため、一時的に片系断となる切り戻し処理の判断をするが、処理をMME 02に引き継ぐ際に一部に輻輳が発生、この後は4月27日同様に、内在するリカバリー処理のバグが誘発され、MMEが両系断に至った。

 加えて、MMEが両系断に至ったことで、端末がLTE網から3G網に接続する“ハンドダウン”が大量に発生。加入者情報管理システム(HSS)が接続通知を大量に受信し、ダウンしたMMEとの間で輻輳が発生する。これにより、音声通話のうち、輻輳に巻き込まれたHSSへの接続が正常に行われず、IP網を経由するものなど一部の音声発着信ができない障害や、SMSが遅配するなどの事象が発生した。音声通話の通信障害は確認までに時間がかかったが、これは、コールログをすべて解析するなど全容を把握するために時間がかかったためとしている。

5月30日、新たなバグに起因して前日の障害を再現

 5月30日に発生した通信障害は、5月29日に失敗していた修正ファイルの再投入を準備している最中に、MME内部の呼処理カードのバグにより、過負荷となって片系断が発生したことに起因する。このバグはこの時初めて明らかになったという。呼処理カードのソースマネージャーが、一定以上の処理量になると自身が輻輳状態になるというバグで、タイマー設定が短かかったことが原因だった。このバグにより片系断が発生したことで、再度29日と同じ流れになり、両系断にまで至った。

通信障害への対策「甘さがあった」

 田中氏は、一連の通信障害の原因を説明し、バグへの対処を「クリティカル」な課題として分類。その上で、作業手順の再確立や迅速化、確実性といった運用品質の向上が重要とし、さらに、一時的な高負荷にも耐えられる容量設計思想や指針を基本方針に掲げた。田中氏は「トラフィックは予定外のことが起こる。対策したつもりだったが、それを上回った」とし、誤作動などが発生することを前提に設計する「機能安全」を確立するとし、営業、運用、技術部門などが連携する「LTE基盤強化対策本部」として、社長を本部長とする全社横断的な体制が6月10日に新設されたことを説明した。

 もっとも、基本的な対策は、4月27日の通信障害を受けてすでに発表されていた。田中氏からは、4月末から短時間復旧できる手順や、夜間・休日の監視体制の強化などを実施。5月15日にはMMEなどに230億円の投資を行い、設備を増設することを決定し、さらに監視体制の強化として20名から42名へのLTE監視要員の増員も6月1日より実施した。MMEなどへの追加投資は70億円が追加され総額300億円になり、このうち200億円程度がMMEの増設などに投資される。これにより、MMEは、8月末までに50台に、9月末には58台に増設される予定で、2系統を3系統にするなどさらなる分散、収容基準の見直しなども行われる。

 ユーザーへのお詫びとして実施される利用料の減算処理700円は、LTEの基本使用料やパケット定額料など、利用料の3日間分として算定。同社の約款では24時間以内の通信障害では料金を返還しなくても問題ないが、今回の一連の通信障害については3日間と判断し減算処理を行う。対象のユーザー数は現在精査中とのことで、約64万人を基本に、10~20万人が加わるかもしれないとしている。

 田中氏は、トラフィック量などに対しては対策ができていたとするものの、「通信障害が起こって、さらにピークのトラフィックに対応できるかといえば、甘さがあったと認識している。できていなかったのは、障害発生時の対応」と語り、「社内のすべての組織が、スマホ時代に合わせて変わっているのかと言われれば、そうではないと思う」と社内の意識にも言及。前述のフェールセーフの取り組みも含めて、強化を行っていく方針を改めて示した。

太田 亮三