ニュース
楽天モバイル、9月の障害は「ソフトウェア不具合による輻輳」が原因――緊急モードへの移行手順も属人化で影響長期に
2022年10月4日 19:59
楽天モバイルは、9月に発生した通信障害について、総務省に重大な事故報告書を提出した。総務省は、報告書を受領し、今後必要な対応を検討するとしている。
報告書によると、影響時間は9月4日11時20分頃~13時26分頃の約2時間6分(以前の案内では10時58分頃~13時26分頃)。発生した事象は、音声通話とデータ通信が利用しづらいというもの。
影響を受けたユーザー数について、データ通信が約130万人。また音声通信について約11万人が影響を受けたことが、新たに明らかになった。
原因について、データセンターのスイッチ装置にソフトウェア不具合が発生し、装置の再起動が発生。これに伴い切断されたユーザー端末からの再起動要求の集中により、ポリシー制御を司る加入者データベース(PCRF、後述)に輻輳が発生し、位置登録処理に失敗した端末の通信が利用しづらくなったという。
障害発生の詳細
障害発生までの経緯について、楽天モバイルでは、同社Webサイトで詳しく説明している。
障害発生時刻の11時20分に、西日本データセンターに設置しているスイッチ装置が、ソフトウェア不具合により再起動が発生し、それに伴いパケット交換装置のシステム再起動が発生した。
再起動によって切断されたユーザー端末から、装置の再起動後に「再接続要求」が集中し、ポリシー制御装置(加入者データベース、PCRF)に輻輳が発生したという。
ポリシー制御装置は、加入者のデータ容量や通信量、通話料などのポリシーを管理している装置で、データ容量超過後の速度制限や、課金に関する内容を制御しているもの。楽天モバイルは使い放題ながら通信量によって利用料が変わる段階性の料金プランを採用しているほか、auへのローミングによるパートナーエリアでは通常5GBまで高速通信できるといった内容になっており、ポリシー制御装置が同社の料金プランにあわせてコントロールしている。
西日本データセンターの輻輳の影響で、再接続要求が東日本データセンター内のポリシー制御装置にも到達し、同様に輻輳が発生してしまったとしている。
楽天モバイルでは、障害時にサービスを継続できるよう、パケット交換装置からポリシー制御装置への接続を回避してサービスを継続する「障害時緊急モード」を規定している。障害発生から2時間6分後の13時26分に、「障害時緊急モード」への移行を実施、東西のポリシー制御装置が平常時相当に回復し、輻輳の解消を確認したという。
発生原因
発生原因について、楽天モバイルは「ソフトウェア不具合」と「障害発生時の手順」を挙げている。
前述のスイッチ装置のソフトウェア不具合について、「システムログが自動的に削除されず、ログ保存用メモリーが枯渇」したことにより、動作が不安定となったという。これにより、「データ転送の停止/不安定状態を検知し、切り離す」ことができず、再起動までに想定外の時間がかかったとしている。
また、障害が長期化した原因について、西日本データセンター内の輻輳発生後、東日本でも同様に発生したため、トラヒックを片側のデータセンターに寄せることができなかったと説明。先述の障害時緊急モードへの移行についても、同モードの実行が“今回が初めて”であり、移行判断を特定の人物に依存(属人的)していたため、実施可否に時間を要し、障害が長期化したという。
楽天モバイルでは、ソフトウェア不具合について「自動削除されるべき不要ログを定期的に削除」(短期的措置)するとともに、2023年3月末までにソフトウェア改修と適用を完了させる。加えて、障害時緊急モードにおける作業手順の見直しにより実行の短絡化を図るとしている。
なお、障害発生の案内/周知が遅れたことについて、楽天モバイルは「障害報初報に復旧見込み時間等を可能な限りの情報を含めておきたいと判断したため」と説明。今後は、詳細が認識できていなくても、サービス影響があることをユーザーに伝える事を優先するとしている。