トラブルを防ぐには?
原因究明が済んだら、再発防止策を考える。解説の順番が前後したが、実際に発生したトラブルだけでなく、先に想定したトラブルに対しても予防策を考える(表5)。
最終的には費用を見積もって予算の確保までしないとならないが、本稿では割愛する。
社内への啓蒙
人に起因するトラブルは、同じ過ちを繰り返さないよう、啓蒙する必要がある。社内報や通達などの形でもよいが、できれば勉強会などの名目で、直接啓蒙する機会を設けるとよい。他社の事例でもよいから、ちょっとした不注意で会社に大きな損害を与える事例を紹介し、意識改革も促そう。
ただし、Winnyのようにあれだけテレビや新聞で報道されながらも、同じ過ちを繰り返すのが人間の性なので、ヒューマンエラー対策やフェイルセーフ機構などを予防策に組み入れておく。
たとえば、Windows Server 2008のファイルサーバなら、クォータやファイルスクリーンを有効にしておくのがよいだろう。
日常の管理
サーバ管理者としてはトラブル発生の報を待つだけでなく、積極的にトラブルの予兆を掴むことも大切だ。うまくすればトラブルを予防できる。
たとえばハードウェアのリソース(CPU、ディスク、ネットワーク、メモリなど)については、Windowsならタスクマネージャで監視するのが手軽だが、リソースモニタのほうがより詳細に監視できる。
サーバ全般を管理するには、ログをこまめにチェックするとよい。Windowsであればイベントビューアが標準で使える。Linuxならsyslogサーバだ。
syslogの活用
ルータなどのネットワーク機器は、通常は自身でログの管理をしている。しかし、PCと違ってハードディスクがあるわけではなく、わずかなメモリ空間に記録しているだけなのであまり多くは保存できない。また、ルータによっては外部のsyslogサーバにログを転送できるようになっている。Linuxはログをsyslogサーバで集中管理しているので、そちらへ転送すればPCのハードディスクに記録でき、管理がしやすくなる。
FedoraやCentOSの場合、/etc/sysconfig/syslogファイルを編集して外部からのログ転送を受け付けるようにする(リスト1)。
SNMPの利用
SNMP(Simple Network Management Protocol)は、ネットワーク経由でサーバやルータなどの各種情報を管理する仕組みである。
管理する側を「マネージャ」と呼び、管理される側を「エージェント」と呼ぶ。通常はマネージャがエージェントに対し、定期的に情報を要求する(リクエスト)。要求する情報は、MIB(Management Information Base)というデータベースから選択するが、送受信トラフィックをはじめ、管理者が知りたいと思う情報はひと通り網羅している。したがって、日単位、週単位、月単位などで長期的に値の推移を見て傾向を把握する。トラブルの予兆を掴むにはこれが常套手段だ。
一方、あらかじめしきい値を設定しておき、それを超えたらエージェントがマネージャに報告する(トラップ)方法もある。たとえばファイルサーバなら、ハードディスクの空き容量が10%を切った場合に報告させる。こちらは、しきい値の設定次第でトラブルの予兆把握にもトラブル発生の把握にも使える。
Linuxサーバをマネージャとして使うなら、MRTGなどが便利だ。
この連載の記事
-
第8回
サーバー・ストレージ
メールサーバからメールが送信されない -
第7回
サーバー・ストレージ
DHCPサーバからIPアドレスが発行されない -
第6回
サーバー・ストレージ
RAIDのエラー対策をしていますか? -
第5回
サーバー・ストレージ
ファイルサーバのファイルが操作できない -
第4回
サーバー・ストレージ
ファイルサーバの文字化けの解消方法は? -
第3回
ネットワーク
ハードディスクのクラッシュに備えよう -
第2回
サーバー・ストレージ
まずはリモートでトラブルの原因を切り分けよう -
ネットワーク
サーバトラブル解決のセオリー<目次> - この連載の一覧へ