「見える」からわかる!システム障害の原因をあぶり出すテク 第3回
コンフィグのバックアップとロールバック、差分管理、一括変更までをGUIで
何十台ものネットワーク機器設定、その悩みを「NCM」が解消する
2015年08月24日 14時00分更新
大規模なネットワーク運用における難題、それはコンフィグ
●今月のトラブル発生!
近年、当社ではネットワーク機器の台数が数十台レベルへと急増している。しかし、ネットワーク担当者は自分一人しかおらず、設定変更の依頼があってもなかなか手が回らない。このままだと業務に支障を来しかねないので、他のインフラ担当者にもトレーニングを行い、個々にネットワーク設定の変更権限を与えた。
だが、しばらく経つと今度は、一部の通信で障害が発生した。原因がわからないので1台ずつ設定を確認していったところ、新しい担当者によると思われるACLの設定ミスが見つかった。ひとまずは手作業で修正したものの、こうした設定ミスのトラブルを防ぐためには、やはり自分一人で設定を管理していくしかないのだろうか。
スイッチやルーター、ファイアウォールといったネットワーク機器のコンフィグ(設定)は、コマンドライン(CLI)ベースで1台ずつ行っていくのが基本だ。しかし、企業システムの規模が拡大すると、それに伴ってスイッチやルーター、ファイアウォールといったネットワーク機器の台数も増える。数十台、数百台規模になると、当然、コンフィグの変更作業には大きな手間と時間がかかるようになる。
一方で、こうした設定変更の作業は、システムの稼働に支障を来さないように業務時間外やサービス時間外(つまり休日や夜間)に行わざるをえない場合がほとんどだ。大量のネットワーク機器に対し、一定の時間内に(しかも正確に)設定変更を実施するためには、多くの作業員を確保する必要がある。ネットワーク設定は、なかなか頭の痛い問題なのだ。
「ネットワークコンフィギュレーション・マネージャー(NCM)」とは
ソーラーウインズの「ネットワークコンフィギュレーション・マネージャー(NCM)」は、ネットワーク機器のコンフィグ管理に特化した管理ソフトウェアである。ほかの同社製管理ソフトウェアと同様に、わかりやすいGUIのコンソール(ダッシュボード)から一元的な監視/操作が可能で、画面も統合されている。
NCMの基本的な機能は、多数のネットワーク機器から定期的にコンフィグを自動収集し、複数世代にわたるコンフィグをバックアップするとともに、コンフィグの変更点を差分管理してくれるというものだ。
コンフィグの自動収集は、SSHやTelnetで接続できるネットワーク機器に広く対応しており、当然、複数ベンダーの製品が入り混じるヘテロジニアス環境の管理もできる。
複数世代のコンフィグをバックアップ、ロールバック可能
たとえば、NCMのダッシュボードで特定のノード(ネットワーク機器)をドリルダウンしていくと、そのノードのコンフィグに関するさまざまな情報を一覧できるダッシュボードが表示される。ここからワンクリックで、コンフィグが変更された(差分が発生した)のがいつなのか、その内容がどんなものかが簡単に調べられる。
また、過去数世代のコンフィグがNCM上にバックアップされているので、設定ミスが生じた場合は、このバックアップからすぐにコンフィグをロールバックすることができる。さらに、前述のとおりコンフィグの差分表示も可能なので、設定ミスによるトラブルが起きた場合でも原因を精査しやすい。
コンフィグを一括変更して省力化!
NCMは、テンプレート(スクリプト)を使った「一括コンフィグ変更」の機能も備えている。数十台、数百台のネットワーク機器に対して、「NetFlow機能の有効化」「管理パスワードの変更」「SNMPサーバーのIPアドレス変更」といったコンフィグ変更を適用したい場合も、多数の人手を借りることなく簡単に実行できる。
代表的なテンプレートはあらかじめ用意されており、これらの内容を一部修正すれば、すぐに実行が可能だ。もちろん自分で作成、登録することもできる。また、ソーラーウインズが運営するコミュニティサイト「thwack」を通じて、世界のNCMユーザーが作成したテンプレートも配布されている。
なお、テンプレートによるコンフィグ変更は、ジョブとしてスケジュール実行させることができる。特定の日時だけでなく、毎日/毎週/毎月というかたちでもジョブの指定が可能だ。
(→次ページ、ネットワーク設定権限の委譲を安全に進めることが可能に)
この連載の記事
-
第7回
デジタル
「QoEダッシュボード」と「AppStack」でトラブル解決してみる -
第6回
デジタル
アプリ障害の原因はインフラのどこに?「AppStack」が簡単解決 -
第5回
デジタル
適切なNW増強計画のために「NTA」でトラフィック量を可視化 -
第4回
デジタル
「UDT」で持ち込みデバイスのネットワーク接続を監視する -
第2回
デジタル
ネットワーク?サーバー?QoEダッシュボードで障害原因が見える -
第1回
デジタル
なぜ、いま運用管理の“バージョンアップ”が必要なのか - この連載の一覧へ