迅速な障害原因の切り分けを行い、効率的な対応を実現するためのツール

ネットワーク？サーバー？QoEダッシュボードで障害原因が見える

2015年07月14日 14時00分更新

文● 大塚昭彦／TECH.ASCII.jp

実際にアプリケーション／ネットワークの状態を「見て」みよう

　では実際に、QoEダッシュボードを使って冒頭に挙げたトラブルの原因を探ってみることにしよう。ここでは「アプリケーション応答時間」と「ネットワーク応答時間」という2つのウィジェットに注目する。

　アプリケーション応答時間（ART：Application Response Time）は、クライアントとサーバーが3Wayハンドシェイクを実行したあと、サーバーがクライアントに最初のデータを送信するまでの平均時間を示すウィジェットだ。一方、ネットワーク応答時間（NRT：Network Response Time）のほうは、3Wayハンドシェイクそのものの平均応答時間を表している。簡単に言えば、この2つを見比べることでレスポンスの遅い原因がアプリケーションなのか、ネットワークなのかがわかる。

　まず「ファイル転送が遅くなった」というFTPについて見てみると、ネットワーク応答時間のウィジェット下部の一覧に赤く警告が出ている。グラフに目をやると、この数時間で急激に応答時間が遅くなったようだ。

「ネットワーク応答時間（TCP ハンドシェイク）」のウィジェットでは、FTPの応答時間が遅いという警告が出ている。グラフでもそれがはっきりとわかる

　つまり、ダッシュボードを一目見るだけで、「原因はネットワーク側にあるらしい」ことが簡単にわかったわけだ。

　さらに、ウィジェットの「FTP」の項目をクリックすると、ドリルダウンしてFTPだけの詳しい状況を調べることができる。下に示す画面では、あるFTPサーバーとの通信で大きなパケット損失が発生しており、やはり何らかのネットワークトラブルであることがわかる。あとはネットワーク担当者が、ルーターやスイッチの設定を確認し、修正してやればよさそうだ。

ドリルダウンしてFTPだけの状況を詳しく調査。大量のパケットロスが発生しているようだ

　それでは、もう1つの「業務アプリケーションが重い」というトラブルも原因は同じなのだろうか。しかし、再度ネットワーク応答時間のウィジェットを見てみても、SQLの応答時間は300ミリ秒以下で安定しており、問題はなさそうだ。

　一方で、アプリケーション応答時間のウィジェット下部では「MS SQL」に警告が出ている。グラフを見ると、一定ではあるものの常に3秒以上の応答時間がかかっている。つまり、FTPとは逆に、こちらは「データベースサーバー側に原因がある」ことがわかった。したがって、あとの対処作業はサーバー担当者やデータベース担当者が行うことになる。