「見える」からわかる!システム障害の原因をあぶり出すテク 第6回
アプリに関連するコンポーネントスタックを“串刺し”で表示、一目で原因が「見える」ツール
アプリ障害の原因はインフラのどこに?「AppStack」が簡単解決
2016年03月01日 08時00分更新
アプリを支えるコンポーネント間の関連づけ表示をしてくれる「AppStack」
●今月のトラブル発生!
当社ではECサイトを運営している。このサイトは当社ビジネスの根幹をなすものであり、パフォーマンスが悪くなった場合には、何をさておいてもすぐに原因を究明し、問題を解消しなくてはならない。
しかし、パフォーマンスが悪くなるたびに、アプリケーションの担当者からデータベース、仮想化プラットフォーム、ストレージ、ネットワーク、サーバーの各担当者まで、たくさんの人間に一斉に調査指令が下ることになる。いかんせんこれでは効率が悪い。何とかならないものだろうか。
「アプリケーションがダウンした!」という場合でも、その原因がアプリケーションそのものにあるとは限らない。たとえば、Webサーバーやデータベースサーバーの障害の影響かもしれないし、物理サーバーやストレージが故障したせいかもしれない。
アプリケーションの動作は、複数のインフラコンポーネントのスタック(積み重ね)に支えられている。したがって、あるコンポーネントで起きた障害が、思わぬアプリケーションの動作に影響を及ぼすこともある。
こうしたコンポーネント間の複雑な関係は、障害発生時の原因切り分けや原因究明などを難しくしてしまう。多数のアプリケーションを運用しており、サーバー、データベース、ストレージ、アプリケーションと、それぞれ異なる担当者が管理をしている環境ならばなおさらだろう。
「Application Stack(AppStack)」は、この問題を解決する集約型ITシステム管理ツールだ。ソーラーウインズの各種システム管理製品群に搭載されており、追加費用なしで利用できる。アプリケーション/サーバー/仮想化環境/ストレージから収集したデータを集約し、互いに連携させる(ひも付ける)ことにより、障害の原因がどこにあるのかを発見しやすくする。
ただし、AppStackの基となるデータを収集するのは、AppStack自身ではなくそれぞれのシステム管理製品の役割だ。したがって、有効活用するには複数の管理製品を導入することが推奨されている(下記参照)。
・サーバー&アプリケーション・モニター(SAM):サーバー/アプリケーション管理製品
・バーチャライゼーション・マネージャー(VMan):仮想化環境管理製品
・ストレージリソース・モニター(SRM):ストレージ管理製品
・Webパフォーマンス・モニター(WPM):Webアプリケーション用パフォーマンス管理製品
各コンポーネントの稼働状態をアイコン表示、関連するものだけに絞り込みも
まず、ソーラーウインズのデモサイトで実際にAppStackに触ってみよう。
「アプリケーション」タブからAppStackの画面を開くと、「アプリケーション」や「トランザクション」「サーバー」「ホスト(仮想サーバー)」「ボリューム」などの分類で、各コンポーネントの稼働状況がアイコン表示されている。緑の丸アイコンは正常稼働しているコンポーネントだが、それ以外は「ダウン(赤い丸)」や「重大な障害(赤い三角)」など、何らかの異常が生じていることを示している。
アイコンにカーソルを当てると、そのコンポーネントと関連するコンポーネントの状態が表示される。たとえば下の画面は、あるアプリケーションの稼働状態を表示したものだ。アプリケーションがダウンしており、赤い丸のアイコンになっているが、サーバーマシンそのものは動作しており、CPU負荷やメモリ使用量にも問題はないことが一目でわかる。
さらに、関連するコンポーネントだけをわかりやすく表示させることもできる。上述のアプリケーションをシングルクリックすると、関連するコンポーネントだけが濃い色で強調表示されるようになる。下の画面では、アプリケーションが使用しているサーバー、およびボリュームが強調表示されている。
この機能は、アプリケーション以外のコンポーネントから関連するコンポーネントをたどる場合にも使える。たとえば下の画像のように、障害の発生しているサーバーをクリックすれば、この障害の影響を受けているアプリケーションがどれかを一目で判別できる。
また、各アイコンをダブルクリックすると、そのコンポーネントの状況を詳細表示する画面に直接ドリルダウンできるので、より詳細な障害調査をしたいときに便利だ。
この連載の記事
-
第7回
デジタル
「QoEダッシュボード」と「AppStack」でトラブル解決してみる -
第5回
デジタル
適切なNW増強計画のために「NTA」でトラフィック量を可視化 -
第4回
デジタル
「UDT」で持ち込みデバイスのネットワーク接続を監視する -
第3回
デジタル
何十台ものネットワーク機器設定、その悩みを「NCM」が解消する -
第2回
デジタル
ネットワーク?サーバー?QoEダッシュボードで障害原因が見える -
第1回
デジタル
なぜ、いま運用管理の“バージョンアップ”が必要なのか - この連載の一覧へ