直接サーバを調査する~まずは電源から~
トラブルが発生していると思しきサーバを直接操作する場合、まずは物理的な状況から確認しよう。電源が切れているなら、ACケーブルがコンセントに接続されていることを確認のうえ、まずは電源スイッチを入れてみる。電源ランプや冷却ファンの回転音に注意しながら、電源が入るかどうかを確認する。電源が入らないようなら、電源ユニットに問題がありそうだ。
サーバは原則として、24時間365日ノンストップで稼動する。したがって、一般的なPCと比べて過酷な条件で動いている。ある日、突然ハードウェア的にダウンするということも、十分考えられる。昨日まで大丈夫でも、今日はどうなるかわからないのだ。
UPSもチェック
UPS(無停電電源装置)を使っている場合、こちらに問題が発生している可能性もあるので、UPSを経由する場合と、そうでない場合の両パターンで試す必要がある。
通常は、停電時に電源がいったん切れ、復旧時に自動的に電源オンする設定になっているのだが、それがうまく働かなかった可能性もある。
また点検ついでに、UPSのバッテリ寿命にも注意してほしい。バッテリには寿命があり、古くなっていると、いざというときに役に立たない。早めに新品バッテリと交換しよう。
冷却ファンを疑う
もし、電源が入ったのに冷却ファンの音がしない、あるいは異音がするようであれば、冷却ファンの異常でCPUなどが過熱したことが、不具合の原因かもしれない。最近は、静かさを求めるあまり、なるべく冷却ファンを回さないように設定していることもあるので、音のチェックだけでなく、筐体を開けて目視しよう。
PCやマザーボードなどに冷却ファンの回転数やCPUなどの温度を監視するツールが付属していれば、それを日常的に利用する(画面4)。付属ツールがない場合、フリーウェアのなどがお勧めだ(画面5)。
BIOSのPOSTとビープ音
電源オン時にビープ音がする場合、マザーボードのPOST(Power On Self Test)で異常を検知している。マニュアルなどでビープ音の内容を確認し、該当箇所をチェックする。
仮にビープ音がしなくても、BIOSの起動メッセージで何か異常を示しているかもしれないので、ちゃんと目視すること。問題がなければ、引き続きOSの起動が完了するまで、気を抜かず画面をよく見てほしい。
OS起動後の調査
無事にOSが起動してハードウェアに問題がないとなると、今度はソフトウェアの異常を疑うことになる。まずは、サーバとして提供しているサービス(Linuxではデーモンと呼ぶ)が、現在稼動中かどうかを調査する。Windowsであれば、[管理ツール]にあるサービスを見てみる。[状態]が「開始」であれば、そのサービスは現在稼動中である。もし[スタートアップの種類]が「自動」なのに、[状態]が空欄であれば、起動に失敗して現在停止中であることを意味する。画面左上にある「サービスの開始」をクリックして無事開始するか、それとも再度停止するかを見極めよう。
Linuxであれば、psコマンドにgrepコマンドを組み合わせてサービスを抽出して調べる(画面6)。何も表示されなければ、該当サービスが停止中を意味する。FedoraやCentOSであればserviceコマンドで起動できるので、無事開始するか、それとも再度停止するかをチェックする(画面7)。
ログはすべてを語る
サービスが停止している場合、原因を調査するのだが、そのためにはログを確認するのが手っ取り早い。
Windowsであれば、[管理ツール]にあるイベントビューアがログに相当する(画面8)。もし「警告」や「エラー」が起きていれば、内容を精査して対策を考える。
Linuxの場合もログを見るが、サービスによってログの出力先が異なるので、注意が必要だ(表1)。
(次ページ、「ハートビートの監視」に続く)
この連載の記事
-
第8回
サーバー・ストレージ
メールサーバからメールが送信されない -
第7回
サーバー・ストレージ
DHCPサーバからIPアドレスが発行されない -
第6回
サーバー・ストレージ
RAIDのエラー対策をしていますか? -
第5回
サーバー・ストレージ
ファイルサーバのファイルが操作できない -
第4回
サーバー・ストレージ
ファイルサーバの文字化けの解消方法は? -
第3回
ネットワーク
ハードディスクのクラッシュに備えよう -
第1回
サーバー・ストレージ
管理者の心構えはできていますか? -
ネットワーク
サーバトラブル解決のセオリー<目次> - この連載の一覧へ