スキルゼロのエンジニアが1年で運用デスマを解消した話 第2回
ソーラーウインズの「NPM」でデータセンターを救え!いや、まじで
ネットワーク管理ツールなんて10年早いは本当か?
2015年08月10日 09時00分更新
大規模な障害が発生!ピンチはチャンス?
これは八尋課長にも相談してみなければ……と考えていた矢先、なんと会社のデータセンターでネットワーク機器の故障に起因した大規模な障害が発生してしまった。自社の社内システムはもとより、親会社のシステムまでダウンが余儀なくされ、IT部門はその復旧とレポートに追われることとなった。ようやく一段落付いた1週間後、西牧は意を決して、八尋課長に相談をもちかけた。
西牧:課長!ちょっとお話しがあります。
八尋課長:おおっ。西牧、トラブル対応ご苦労だったな。本当に今回のトラブルは酷かった。IT部門内での担当がまったく連携してなかったので、なにより情報収集にえらく時間がかかってしまたからな。子会社の情シス担当を出向で寄せ集めた今のIT部門だと、どうしても組織の壁が厚いな。
西牧:その件で、お話しが……。
八尋課長:ネットワーク構成図も物理配線が複雑すぎるという理由で、論理配線図しかなく、人海戦術で障害原因を探るしかなく、ここでまた時間をとってしまった。で、行き着いてみたら、ネットワーク機器の障害で、ポートが死んでたというじゃないか。しかもリンクの冗長化も施されてなかったから、SPOF(Single Point of Failure)で、あっという間にシステムダウンだ。古い機器なんだから、前から障害の予兆は検知できなかったのかな。
西牧:そ、それができるツールを見つけて来たんです。
八尋課長:バカ言うな。サポートのないOSSのツールなんて、うちで使える技術を持っている人間いないぞ。
西牧:サポートのある商用ツールで、トラフィックの状態や遅延、エラーなどまできれいに見える化できるツールがあるんです。
八尋課長:またまた、バカ言うな。この予算削減のおりに、そんなたいそうな管理ツール入れられるわけないだろう。この間も言った通り、その手の管理ツールは数百万円くらいからスタートで、オプションやら、トレーニングやら、保守やらで、数千万円になっちゃうんだぞ。
西牧:ソーラーウインズのNPMというツールは、25万円くらいから始められるんです。実際、試用してみたレポートと画面ショットを持ってきたので、ちょっと見てください!
八尋課長:なに?そんなツールがあるなら、早く言えー。すぐにレポートに目を通してみる。25万円くらいなら、部長の決裁でなんとか、なりそうだな。
西牧:はい!ラボでデモ環境も作りましたので、ぜひ見てください!
ウインズ:(レポートやデモ環境まで作るなんて、けっこうやるじゃない。グッジョブよ、西牧!)
ということで、やりとりをこっそり聞いていたステルス状態のウインズも興味津々。西牧は、果たして本番環境にNPMを導入できるのか? そして泥沼の運用デスマから抜け出せるのか? 次回も乞うご期待。
(提供:ソーラーウインズ)
この連載の記事
-
最終回
デジタル
ソーラーウインズの統合監視システムで運用は本当に変わったのか? -
第6回
デジタル
西牧とウインズ、アプリ開発部隊“19階”からの要求に応えられるのか? -
第5回
デジタル
隣のシステムはオールグリーン?サーバーだって監視したい -
第4回
デジタル
単なる障害検知じゃ意味ない!現場のエンジニアがNPMをつっこむ -
第3回
デジタル
エンジニアだらけの社内デモ!ネットワーク監視は簡単に始められる -
第1回
デジタル
現場は戦場だった!インフラ運用に配属された僕の悲劇 - この連載の一覧へ