ドコモ、相次ぐ通信障害についての説明会を開催


 NTTドコモは、7月25日に発生したspモードの障害(記事)と、8月2日に国内外で発生した障害(記事記事)について説明会を開催した。いずれの障害も現在は復旧しており、今回は障害の詳細が語られた。

「spモード各種設定」の障害

 7月25日に発生した通信障害は、「spモード各種設定」の設定情報が他のユーザーに閲覧、変更可能な状態になったというもの。発生期間は7月25日の1時41分~9時14分で、この事象を防ぐために9時14分~13時37分にかけて「spモード各種設定」サイトが一時停止した。

 ドコモの調査によれば、障害により、メールアドレスやspモードパスワード、Wi-Fiパスワードなどが変更されてしまったユーザーは約780人で、このほか、迷惑メールの設定、つまりメールのフィルタリングやメールアドレスのホワイト/ブラックリストが変更されたユーザーは約4600人いた。合計すると約5380人のユーザー情報が変更された。

 同様に、誤って他人の設定情報を変更してしまったユーザーも同数いることになり、影響を受けた/与えた範囲は1万1000人規模になる。

 なお、spモードシステムの障害だが、メールの送受信には影響はなく、「spモード各種設定」のみに影響が出た。

spモードシステムの仕組み

 現在1200万人が利用するspモードシステムは、同一のプログラムで、同一の機能を有するAサーバーシステムに最大800万、Bサーバーシステムに最大800万の合計1600万人まで収容可能なシステムが構築されている。AとBはそれぞれ独立して動作する。



 ユーザーがスマートフォンの電源を投入すると、自動的にAかBのどちらかに割り振られ、例えば、あるユーザーがspモードのメールを送信する場合、パケット交換機を経由して、電源ON時に決まったAかBのspモードシステムからメールが相手に届く。

 「spモード各種設定」の操作も同様で、パケット交換機を経由して、AかBのspオードシステムに繋がり、ABそれぞれにあるユーザーの管理リストから利用者個別のspモード設定情報を呼び出す形になる。

障害の原因、約6割が同じ「0000」パスワード

 今回の障害は、Bのサーバーをバージョンアップする際に、誤ってA用のファイルを適用してしまったことによるもの。これにより、Bに接続するユーザーが「spモード各種設定」にアクセスすると、参照先の管理リストがAのものになる。万が一、spモードのパスワードが一致してしまうと、誤った管理リストの設定内容が変更可能な状態になる。

 なお、spモードパスワードの初期設定値は「0000」であり、これはiモードパスワードの初期値と同様に「0000」で統一されている。spモードシステムでは、約6割のユーザーが「0000」パスワードのままspモードを利用している状態にあり、障害によってパスワードが一致する確率はかなり高いと言える。

 ドコモでは、障害発生の前日となる24日、spモードシステムのAサーバーシステムのバージョンアップを実施しており、これに問題が発生しなかったことも確認している。更新ファイルを適用する際は、ファイルの名称とファイルサイズ、更新日時分を確認した上で適用するという。

 しかし翌25日、確認をした上で適用したファイルは前日適用が済んだA用ファイルだった。A用とB用の更新ファイルは、ユーザー情報の参照先は異なるものの、ファイル名やサイズ、更新日時分はいずれも同一だったためだ。ドコモによれば、ファイル名が同じなのは、AB同一プログラムでの利用効率を上げるためのポリシーだったという。

対策

 障害を受けドコモでは、AとBのファイルを独立して管理するよう手順を変更した。さらに、ファイル確認の際に、ファイル名やサイズ、更新日時分などのほかに、ファイルの中身の違いを検出できる方法を採用する。また、ソフトウェアの更新前後で、追加・変更した機能の確認ができるようにするなどチェック項目を追加する。


8月2日の2つの障害、その関係性

 8月2日には、国際ローミングサービス「WORLD WING」の通信障害と関東甲信越・東海・関西地方におけるFOMAやXiの通信障害の2つが発生した。ドコモではこの2つの障害には関係があるという。



 「WORLD WING」の通信障害が発生したのは、8月2日16時20分~翌3日12時12分で、「WORLD WING」の音声通話やパケット通信に通信できない、もしくは繋がりにくい状態が発生した。

 原因は、NTTコミュニケーションズの通信設備の故障によって、国際線間の共通線が輻輳状態となったことによるもの。影響範囲は「WORLD WING」を提供する約220の国・地域で、影響人数は最大で約7万人。

 国内のFOMA・Xiなどが一部利用しにくい状態になったのは8月2日の18時15分~19時42分。関東甲信越・東海・関西地方でドコモを契約した一部のユーザーで、MNPで他社に移ったユーザーも含まれる。大半は関東甲信越で契約したユーザーになるという。影響人数は最大で約145万人に上る。

ネットワークの中核装置にトラブル

 国内ドコモ網の通信障害の原因は、「IP-SCP」と呼ばれるサービス制御装置のトラブルによるものとされた。「IP-SCP」は、通信時にユーザーがどこにいるかを参照するネットワークの中核的な装置にあたる。

 前述した他社通信設備の故障によって、国際回線が輻輳状態にあった。これにともないドコモ網と他社網が繋がる共通線リンクが接続と切断を断続的に繰り返す不安定な状態になった。

 通話などの通信が接続する際に、他社網との間で信号をやりとりし、通信網同士が接続可能な状態であることを確認しあう。共通線リンクが不安定になったことで、ドコモ通信網内の「IP-SCP」から発した要求信号に対して応答信号が滞る状態になった。一定時間に応答ががない場合、要求信号をオフにする仕組みはあるが、基本的には要求信号を優先する仕組みとなっていた。このため、要求信号をオフにするためのタスクがじわじわと蓄積され、最終的に「IP-SCP」の予備機も含めて信号管理のテーブルが満杯になり、利用しにくい状態となった。

 「IP-SCP」は、ユーザーとネットワークを結ぶための装置であるため、処理が貯まり位置登録できないことで、ユーザー側には「圏外」と表示された。

 「IP-SCP」の信号処理は高速に処理され、100%のキャパシティに対して通常はピーク時5%程度で運用されているという。システムにも余裕があり、ネットワークの中核的な装置であるため、2005年の導入以来、これまでに一度も問題が起こっていなかったという。問題が起こったのは24ユニットのうちの4ユニットで、20ユニットは動いていた。ドコモでは、信号処理に関する障害が長時間続くのは初であるとし、解析に時間を要するとしている。

対策

 ドコモでは、8月中旬を目途に信号処理機能の低下を抑止するソフトウェアを導入する。他事業者とのトラブルについては、詳細に協議し再発防止策を講じるとしている。システムの設計上に問題はないとし、ソフトウェア改修などの措置で対応、大幅な設備投資は必要ないとしている。


ドコモ岩崎氏「信頼が低下していると認識」

ドコモの岩崎氏

 説明会には、NTTドコモの代表取締役副社長の岩崎文夫氏、執行役員でサービス運営部長の丸山洋次氏、サービスプラットフォーム部長の長谷川正之氏、ネットワーク開発部長の中村寛氏が登壇した。

 説明会の冒頭と最後、相次ぐ障害に代表者4名が深々と頭を垂れた。ドコモの岩崎氏は、障害の概要を説明し「一連の通信障害により、総務省から行政指導を受けて再発防止に務めてきたが再び障害が発生し、多くのユーザーに迷惑をかけた」と話した。

 また、spモード自体の脆弱性を指摘されると、「spモード関連では今年はじめにトラブルが発生し、spモードシステムそのものが他のシステムと比べて、脆弱なものではないか、また拡張性が乏しいものではないか、ドコモだけが別のことをやっているのではないか、とさまざまに検討を重ねてきた。spモードシステムは5000万ユーザーまで拡張性のあるもので、胸を張って言える立場ではないが設計に問題はない」と語った。

 6000万ユーザーを抱えるNTTドコモ、安心感や信頼感でドコモを利用するユーザーも多くいると推察される。度重なる通信障害はその信頼性をゆるがしかねない重大な事象だ。

 岩崎氏は、「ドコモのネットワークは安心安全という面で選んでいただいている。いつも繋がることを期待されており、これまでも期待に応えられるように取り組んできた。ここ数年、多くの利用者に影響を与える通信障害が発生しており申し訳なく思う。信頼が低下していると認識している。これまでやってきたことをしっかり進めていくのは当然として、障害に共通する要因があるのかないのか、しっかり検討していく。度重なる障害を繰り返さないよう、全社員、関係メンバー、歯を食いしばってやっていきたい」と話したほか、安心安全性というキーワードについて、「私どもの使命、私どもの社会インフラとしての役割をしっかり進めていきたい」と語った。

 




(津田 啓夢)

2012/8/7 15:46