ドコモ、6月6日の大規模障害について原因と対策を公表


 NTTドコモは、6月6日に発生した大規模なネットワーク障害について、発生の原因と対策を公表した。

 同社のネットワークでは、6月6日8時27分~21時36分までの間、関東甲信越で携帯電話を契約した一部のユーザーを対象に、現在地にかかわらずサービスが利用しづらくなるネットワーク障害が発生した。MNP(携帯電話番号ポータビリティ)を利用して他キャリアに移ったユーザーやMVNO(仮想移動体通信事業者)のユーザーも対象で、最大で172万人が影響を受けた。

 大まかな流れは、ユーザーのエリア移動や発着信などに関連した装置の一部ハードウェアで故障が発生し、通常なら一部だけがバックアップの系統に切り替わるところ、不具合により装置全体が切り替ってしまったというもの。朝の通勤時間帯に重なったこともあり、切り替え先の装置で集める位置登録信号の急増にソフトウェアが耐えられず、輻輳(ふくそう)状態になった。

 障害の原因となった設備は、ユーザーの位置情報を管理する「サービス制御装置」で、装置内の一部のパッケージ(ハードウェア)が故障したのが基本的な原因。通常であれば故障した一部のパッケージだけが、「0系」からバックアップの「1系」のパッケージに切り替わるところ、制御装置はソフトウェアアップグレードの期間に入っていたため、これに起因して装置全体で「1系」に切り替わってしまったことが要因。加えて、パッケージの故障が平日朝の通勤時間帯に重なり、「1系」への位置登録信号が急増、ソフトウェアの過負荷耐性が不足していたことで、処理能力が低下し輻輳状態に陥った。なお、「0系」「1系」は同社の呼称で、「1系」はバックアップに相当する。

 同社ではサービス制御装置への負荷を下げるために通信規制を実施。元の「0系」システムに切り替えを行なったが、負荷の高い状態が続いたために通信規制をさらに強化し、負荷状況を見ながら徐々に規制を解除していった。

 しかし、システムが安定したことから通常の運用状態に戻したところ、切り替えソフトウェアの不具合により再度「0系」から「1系」にシステムが切り替わり、再び輻輳状態となった。このため再度通信規制を実施、システム安定化を図り、21時36分に復旧した。

 同社では、ソフトウェアの過負荷耐性を強化する修正を行い、全国のサービス制御装置で対策を完了している。

サービス制御装置の役割
障害発生から安定化までの時系列

 




(太田 亮三)

2011/6/14 17:44