KDDIは、4月27日、5月29日、同30日と3日にわたって、東京圏を中心に「4G LTE」端末のデータ通信に大規模障害が発生したことについて説明会を開催した。今回の技術的な解説および謝罪は、すべて同社代表取締役社長の田中孝司氏が行なっている。
まず、今回発生した障害の概要について、あらためて説明が行なわれた。4月27日、5月29日/30日のいずれでもLTEによるデータ通信に障害が起こり、それぞれ約60万のユーザーに影響があった。これに加えて、5月29日には音声通話の発信が約2万8000件、着信が約8万6000件つながりにくい状況が発生。こちらは3G端末が含まれている。
基地局制御装置の2つの致命的なバグ
対象ユーザーには700円の料金減算
今回の通信障害はLTEの基地局をコントロールする「MME(LTE基地局制御装置)」と呼ばれる機器の問題に起因している。
一番最初の原因となったのは、パケットのフラグメンテーション処理に関するもの。巨大なパケットが分割されてMMEに送られてきた際、分割されたパケットのうち、2つ目が60bytes未満という非常にレアなケースにおいて、MME内のネットワークインターフェースカードがリセットされるというバグがあったという。
このバグにより、多摩に設置されていた2系統のMMEのうち1系統がダウン。ダウン後はリカバリー処理がかかったが、処理量の過大によって発生するリカバリー処理のバグがあったため、システム全体がダウン。これにより16時1分~22時18分の6時間17分にわたる障害が発生した。
当初のパケットの問題については、送り元であるDNSサーバーからバグの発生原因となるパケットを送らないようにすることで一旦対応。その後、5月29日にこれに対応する修正ファイルを作成し、MMEに適用中にハードウェア障害が発生。適用作業を中断したが、その過程で処理量が再び過大となり、4月27日の状況と同様にシステム全体のダウンが発生。また、加入者情報管理装置(HSS)の負荷が高まり、結果として3Gによる音声通話も一部正常に行なわれない状態となった。
さらに翌日の5月30日には、前日の問題にも関わらず、再度修正ファイルを投入中、負荷が高まり、1系統がダウン。これまでと同じく、リカバリー処理のバグで3度目のシステムダウンに至った。
田中社長は、これまでも通常時の負荷、もしくは機器が通常で通信量がピークという状態であれば耐えられるシステムを構築してきたとする。一方で予定外のことが起きたときへの対策が不十分であったことを認め、そういった事態の発生を前提とした“機能安全”の確立が必要とする。
また、MMEには5月15日の時点で230億円の設備投資を決定していたが、70億円を追加し、総額300億円に増額。現状19台のMMEを8月末には50台、9月末には58台とすることで、大きく余裕を持たせたシステム作りを予定している。
なお、障害の対象となったユーザーへのお詫びとして、3日分の基本使用料/パケット定額料相当の金額として、700円を利用料金から減算する。