楽天モバイルは4日、9月4日に発生した通信障害について、総務省に報告書を提出したことを公表。同社サイト上でその内容を明らかにしている。
今回の障害は9月4日11時20分頃から13時26分頃までの2時間強。全国の一部ユーザーに影響が発生、データ通信で約130万回線、音声通信で約11万回線が利用しづらい状況になったとしている。
障害の端緒となったのが、西日本データセンターに設置しているスイッチのソフトウェア不具合。これにより、再起動が発生。連動するようにパケット交換装置も再起動し一旦切断された端末からの再接続要求が集中することで、ポリシー制御装置(通信量などの設定を制御する装置)に輻輳が発生、その信号の再送が東日本データセンターのポリシー制御装置にも影響を与え、同様に輻輳が生じたとする。
その後、13時26分になり、あらかじめ用意していた障害時緊急モード(パケット交換装置からポリシー制御装置への接続をせずに、パケット交換機の内部処理で代替するというもの)に移行することで、輻輳を解消できた。この障害時緊急モードの実行が今回初めてで、その判断を属人的に行なっていたため、障害が長期化したとする。
再発防止策では、まずは最初のソフトウェア不具合について、短期的には不要ログを定期的に削除するという対応を実施しているが、来年3月末までに恒久対策として回収されたソフトウェアを適用する予定。また、障害時緊急モードでの作業手順の見直しによる速やかなサービス復旧、ユーザーへの情報提供についても、詳細が認識できなくても、まず影響が発生していることを優先するといった改善策を進める考えだ。