本記事はFIXERが提供する「cloud.config Tech Blog」に掲載された「Azureの障害に備えて今するべき事 #Azure リレー」を再編集したものです。
2020年9月末、Azure Active Directory(Azure AD)で障害が発生し、Azureだけではなく、Office 365(Microsoft 365)を含む各種サービスに影響がありました。この時、皆様はどこから情報を集めていましたでしょうか?
この記事では、障害発生時に慌てないように事前にどこから情報を集めて置くべきか確認しておきましょう。
慌てない事
システムで異常を検知して、それが次々と連鎖していくと運用担当者やサービス担当者は非常に焦りますよね?
でもここで焦ってはいけません。自分達は運用担当やサービス担当者として、情報を発信していく立場の人間です。その状況において焦ってしまうと周りから見た時により不安に感じてしまいます。まずは決められた手順に従って最初に確認すべき、今何が発生してるのか、今どういう状態なのかを確認していきましょう。
障害発生時に確認するべき場所
Azureでは障害発生時に大きく2ヵ所確認する場所があります。AzureステータスとAzure Service Healthです。それぞれ用途が違うので一個ずつ確認していきましょう。
Azureステータス
Azureの大規模な障害に対してはAzureステータスのページを参照してる方が多いかなと思います。
こちらは主にサービス機能全体に与える障害やリージョンに対する障害が発生しているか確認時に有効です。
一方で個別の障害に対してどの様な問題が発生しているかを知るには不向きです。
AzureServiceHealth
そこで代替手段になるのがAzure Service Healthです。
AzureSeriviceHealthでは大枠で以下のような症状を把握することが出来ます。
1:これから発生するAzureのメンテナンスの通知
2:今まさにサービスに影響を与える障害情報
AzureSeriviceHealthについては以下の様に遷移します。
1:Azureステータスのページ、画面左上部分のAzureSeriviceHealthに移動するリンクを押下
もしくは
1:AzurePortalにログイン
2:画面上部の検索窓に”サービス正常性”と入力
3:検索結果のサービス正常性を押下で遷移
4:自分の意図した障害情報がある場合はリンクを押下して遷移
問題が発生している場合にリンクを押下すると更に詳細な情報を取得できます。
事象・影響受けるサービス・影響受けるリージョン・影響を受けるサブスクリプション等が記載されています。
また画面右部のリンクからPDFで該当の問題のサマリーをダウンロードする事ができます。
さらにServiceHealthの左部のリンクから各種リソースの正常性や正常性のアラートをに設定を入れ込んで仕込んで通知する事も可能です。
システムの異常を能動的に検知するには有効ですので、併せてそちらの設定も確認してみてください。
ただし、すべてのAzure基盤上で発生しているすべてのイベントを拾えるわけでありません。ですのでこのServiceHealthのページだけ見てれば良いわけではありませんのでご注意ください。
次回害障害発生時に備えて
如何だったでしょうか。過去の障害発生時に事実確認に手間取り対応に時間が多く掛かってしまった、誰にどう相談していいかも解らずサービスへの影響が大きくなってしまった等が発生してしまっていたなら、上記を参考に少しでも早く問題解決に役立て頂ければ幸いです。
もしAzure環境の事でお困り事がありましたら弊社の各種サービスのご利用をご検討ください。24時間365日の自動監視、障害一次対応、その他、色々なサービスを展開中です。
お問合せはお気軽にこちらからどうぞ!
関根 繁治/FIXER