米マイクロソフトは3月10日、Microsoft Azureの東日本リージョンで8日に発生したストレージの障害に関するRCA(根本原因)レポートを発表した。通常、一部のストレージサービスに不具合が発生した場合に内部で実行される自己修復メカニズムが、バグによってうまく機能しなかったという。これにより、東日本リージョンのストレージで構築されたサービスの一部に接続できない状態が約2時間続いた。
今回の障害の原因になったのは、Azureの内部でストレージサービスのデータ配置を管理するバックエンドコンポーネント「Stream Manager」のバグ。Stream Managerには、ストレージへのリクエストが失敗する不具合を検知すると、自動フェイルオーバーなどの処理を実行する保護機能があるが、バグにより自動自己修復に失敗した。
同社は、ストレージにバグ修正プログラムを展開すると共に、再発防止策として、今回バグが発生した自動自己修復メカニズムに、セカンダリの修復メカニズムを実装して冗長化するとしている。