このページの本文へ

米マイクロソフトが根本原因と再発防止策を発表

原因は「自己修復メカニズムのバグ」、Azure東日本リージョンのストレージ障害

2017年03月13日 07時00分更新

文● 羽野三千世/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 米マイクロソフトは3月10日、Microsoft Azureの東日本リージョンで8日に発生したストレージの障害に関するRCA(根本原因)レポートを発表した。通常、一部のストレージサービスに不具合が発生した場合に内部で実行される自己修復メカニズムが、バグによってうまく機能しなかったという。これにより、東日本リージョンのストレージで構築されたサービスの一部に接続できない状態が約2時間続いた。

 今回の障害の原因になったのは、Azureの内部でストレージサービスのデータ配置を管理するバックエンドコンポーネント「Stream Manager」のバグ。Stream Managerには、ストレージへのリクエストが失敗する不具合を検知すると、自動フェイルオーバーなどの処理を実行する保護機能があるが、バグにより自動自己修復に失敗した。

 同社は、ストレージにバグ修正プログラムを展開すると共に、再発防止策として、今回バグが発生した自動自己修復メカニズムに、セカンダリの修復メカニズムを実装して冗長化するとしている。

■関連サイト

カテゴリートップへ

ASCII.jp特設サイト

クラウド連載/すっきりわかった仮想化技術

ピックアップ