スキルゼロのエンジニアが1年で運用デスマを解消した話 第6回
プライベートクラウド運用はトラブルだらけ!そして大規模障害の予兆が……
西牧とウインズ、アプリ開発部隊“19階”からの要求に応えられるのか?
2016年02月10日 07時00分更新
ツールはよくても、運用が素人では安定運用は無理
取締役の御前会議の結果を受けて、プライベートクラウドの構築は、アプリ開発部の主導で行なわれることになり、インフラ部隊はサーバーや管理サーバーの調達、設定に追われることになった。ベンダーの言うとおり、確かに構築まではスピーディーに実現。アプリ開発部主導の運用が進んだのだが……。久しぶりに深夜のデータセンターで会った西牧はウインズに現状を報告しているようだ。
ウインズ:西牧、最近やつれてるな。せっかくソーラーウインズで運用が効率化して、インフラ部隊のデスマも解消されつつあるのに。WoT(World of Tanks)のやりすぎか?
西牧:そうなんです。WoTの最新バージョンで追加された「ヒストリカルモード」というやつで、第2次世界大戦の戦車戦を仮想体験できるんです。僕の持っていた戦車がたまたまソ連のT-34だったんで、「春の目覚め作戦」をやっていたんですけど、これがまあドハマリで……って違います! アプリ開発部のプライベートクラウド運用で、全然睡眠時間がとれないんですよ。ここだけの話ですけど、ド素人が運用に手を出すので、トラブル続出で……。
ウインズ:ステルスモードで、八尋課長が出ていた取締役会にこっそり出席していたけど、そんなことになっていたのか。
西牧:確かに老朽化していた機器がリプレースされたのはありがたいんですが、その代わりせっかく便利に使っていたソーラーウインズのネットワークやサーバーの可視化が利用できなくなって、インフラ部みんな困っています。
ウインズ:なに?それはいかんな。私がテキサスに怒られるぞ。それは別途で管理ツールが導入されたということか?
西牧:仮想化ベンダーのツールを使っているんですが、それをアプリ開発チームが見よう見まねで使っているので、手動ミスが多いのです。アラートが上がると、動作を確認せずに、すぐに他のホストにライブマイグレーションさせて、負荷をかけたりしています。あと、ネットワークの帯域を考えずに仮想サーバーを集中させてしまうので、結局インフラ部がしりぬぐいです。
ウインズ:まったくインフラに関しては素人の集まりというわけだな。日本には「餅は餅屋」という言葉があるようだが、全然畑違いをやっているんだな。
西牧:なにかあるとイチイチ、アプリ開発部から問い合わせが入るのですが、口調がすでに上から目線で、しかもトラブルシューティングにまで時間がかけるなというお達しです。ああ、少なくともソーラーウインズがあれば、すぐに障害対応できるんだけどなあ。今は自社のサブシステムの障害だからまだ大丈夫だけど、そのうちアウトソーシングで運用を受託しているシステムもやばいことになるんじゃないかな。胃が痛い……。
ウインズ:ソーラーウインズであれば、仮想化環境をきちんと管理できる「Virtualization Manager」があるのになあ。
西牧:VMwareのキャパシティ管理やパフォーマンス監視、仮想マシンの台数増加制御、構成管理、チャージバックの自動化まで行なえるVirtualization Managerですよね。あれがあれば、Server & Application Monitorと統合することで、アプリケーションからVM、データストアに至るまで一気通貫で可視化できるんだけどなあ。
ウインズ:なんだ、そのソーラーウインズのタイアップ記事で出てくるような流暢なコメントは! ん? なんかコンソールにアラートが上がってるぞ。西牧!
西牧:こ、これはまずい! お客さんの月末処理で仮想マシンの負荷が異常に上がってる! このままだと大規模障害につながってしまう!
ということで、会社のビジネスを一気に吹っ飛ばすような大規模障害の予兆になるようなシステムの負荷を検知した西牧とウインズ。果たして最大のピンチを乗り切ることができるのか? 次回、いよいよ最終回!
(提供:ソーラーウインズ)
この連載の記事
-
最終回
デジタル
ソーラーウインズの統合監視システムで運用は本当に変わったのか? -
第5回
デジタル
隣のシステムはオールグリーン?サーバーだって監視したい -
第4回
デジタル
単なる障害検知じゃ意味ない!現場のエンジニアがNPMをつっこむ -
第3回
デジタル
エンジニアだらけの社内デモ!ネットワーク監視は簡単に始められる -
第2回
デジタル
ネットワーク管理ツールなんて10年早いは本当か? -
第1回
デジタル
現場は戦場だった!インフラ運用に配属された僕の悲劇 - この連載の一覧へ