UQ、9月21日の通信障害の経緯を明らかに


 UQコミュニケーションズは、9月21日に発生した通信障害について、その経緯と今後の対応について発表した。

 今回の通信障害は、9月21日17時45分に発生した。影響エリアは関東・甲信・東北・北海道と、広範囲におよび、対象ユーザーは最大70万人となる。最終的には、障害発生から約19時間15分後の9月2日13時頃に解消されたが、埼玉県・神奈川県・山梨県は22日8時、東京都以外のエリアは22日正午頃と、段階的に復旧した。

 原因の概要については、26日のau新製品発表会において、KDDI代表取締役社長の田中孝司氏が「台風が近づいてきたことで、通常の9倍のアクセスが集中し、高トラフィック時の制御にバグがあった」と述べていたが、UQでも台風15号の接近によりトラフィックが上昇したと説明する。

 ユーザーの手元にあるWiMAX機器からの接続をさばく、アクセス系のセンター設備では通常を大きく上回るアクセス(接続)があった。このアクセスが認証されればインターネットへ繋がることになるが、センター設備内の制御サーバーから何度も認証サーバーへ認証を試みるリトライ処理による大きな負荷が発生し、輻輳(ふくそう)と呼ばれる状態になった。ユーザーからのアクセス、そしてセンター設備内の異常負荷をあわせたトラフィックが“通常の9倍”という規模だったという。

 制御サーバーには輻輳状態で発生するバグがあったため、センター設備のシステムが停止。このセンター設備では、東日本全域の基地局を制御しており、システム停止により基地局が停波して通信できない状況となった。

 システムの再起動を試みたものの、輻輳状況では、バグによって再びシステムが停止する。負荷を抑えつつ、センター設備を順次立ち上げることになったが、そのため復旧までに時間がかかったという。

 9月26日時点で、システム停止を避けるよう処置を行い、同じような通信障害は今後発生しないとのこと。また、さらなるシステムの安定化に向けて、11月上旬にはソフトウェアアップデートを行うほか、障害発生時にスピーディな復旧をはかるため手順の見直しも行われる。

 




(関口 聖)

2011/9/28 17:27