スキルゼロのエンジニアが1年で運用デスマを解消した話 最終回
仮想化管理のVManとアプリが見えるAPPSTACKの実力とは?
ソーラーウインズの統合監視システムで運用は本当に変わったのか?
2016年02月24日 07時00分更新
社内で絶大な発言力を持つアプリケーション開発部の要望に応じて構築されたプライベートクラウドの運用で疲弊するエンジニア西牧に新たな災厄が! トラブルの予兆となる仮想マシンの負荷増大の切り札は、やはりソーラーウインズしかないのか? いよいよ最終回!
アプリ開発部とインフラ運用部が歴史的和解!
親会社の予算減を受け、外注比率の増大を目指す西牧の所属する情シス子会社。プライベートクラウドの構築まではなんとか実現したものの、プロジェクトを主導するアプリケーション開発部(通称19階)の素人運用で現場は疲弊。ついには社内システムの大規模なトラブルに発展してしまう。プライベートクラウドの構築・運用を支持していた取締役も、アプリケーション開発部のリーダー中村も、少々懲りたようだ。連絡会議の模様をまたもや生中継してみよう。
取締役:まずは中村君。先月末のトラブルに関して、レポートしたまえ。
アプリ開発部中村(以下、中村):はい。お手元の資料をご覧ください。先般1月28日、データセンターに構築したプライベートクラウド上の連結決算システムで大規模な障害が発生しました。およそ10時間に渡ってシステムがダウンし、請求や売り上げ集計の処理が一切受け付けられない状態になりました。幸い外販しているサーバーに関してはほとんど影響がなかったようですが、月次の会計処理に大きな遅延が出ました。
取締役:確か、連結決算システムは昨年末にプライベートクラウドへの移行が完了したばかりだったな。
中村:はい。十分なテストは重ねたはずですが、このようなことになり申し訳ございません。
取締役:八尋君、原因は仮想マシンの負荷増大だと聞いているが、インフラ運用部としての見解を聞かせてもらいたい。
インフラ部 八尋(以下、八尋)今回の障害はやはり起こるべくして起きたとしか言いようがありません。昨年末のプライベートクラウドへの移行から、アプリケーション開発部側が主導して運用を手がけていますが、既存の運用ルールを無視していたため、現場では細かいトラブルは頻発していました。今回のトラブルに関しても、たまたまインフラ運用部のエンジニアが検証中の仮想環境を急遽バックアップとしてデプロイできたから10時間で済みましたが、あれがなければ社外からお預かりしているシステムにまで波及していたはずです。
取締役:中村君、今後の運用に関してはやはりインフラ運用部に任せた方がいいようだな。
中村:は、はい。われわれがインフラ運用まで手がけるのはやはり難しかったようです。とはいえ、プライベートクラウド化で得たインフラ構築の迅速さや柔軟性はやはり今後のわれわれのSI力強化のために必須です。インフラ運用部には、ぜひ安定した運用に加えて、見える化を実現するツールの導入を実現していただきたいと思います。予算的な面はもちろん、人的な面でも、われわれも協力させていただければ!
八尋:わかりました。では、運用の効率化を見据えたプライベートクラウドに向けて、アプリケーション開発部とタッグを組みましょう。われわれには実績のある切り札がありますので。
ソーラーウインズ4製品で強力な統合監視システムを構築
こうしてアプリ開発部とインフラ運用部によって、プライベートクラウドの刷新が始まった。八尋課長がアピールしていた“切り札”とはもちろんソーラーウインズの運用管理ツール。以前、インフラ運用部で愛用していた「ネットワーク パフォーマンス・モニター(NPM)」と「サーバー&アプリケーション・モニター(SAM)」に加え、今回は仮想化環境の性能や稼働状態をモニタリングする「バーチャライゼーション・マネージャー(VMan)」、マルチベンダー対応のストレージのモニタリングを実現する「ストレージリソース・モニター(SRM)」まで導入し、統合監視環境を構築することになった。長らくソーラーウインズの導入を主導してきた西牧(&ウインズ)は導入プロジェクトのリーダーに抜擢された。
導入までの検証作業、メンバーの説得、そして現場でのトラブルシューティングの経験を積んできた西牧は、もはやソーラーウインズのプロフェッショナル。アプリ開発部とのプロジェクト会議での受け答えにも自信がみなぎり、スキルゼロだった1年前の面影は見あたらない。
西牧:仮想化環境を管理する際の最大の問題点は、トラブルの原因やボトルネックが多岐に渡る点です。エンドユーザーや開発者の問い合わせに対し、われわれインフラエンジニアはアプリのプロセス、仮想マシンのリソース、物理サーバーのディスクやCPUの使用率、ネットワークのスループットなど、いろんな箇所をチェックする必要がありました。そのため、「アプリケーションが遅い!」というあいまいなクレームに対して、どう手を付けてよいかわからなかったのです。
アプリ開発部:問い合わせするわれわれからしても、インフラの状態はまったく見えませんでした。しかも、問い合わせしてもサーバーの担当、ネットワークの担当、ストレージの担当などがそれぞれ別れていて、たらい回しにされていたんです。
西牧:それに関しては本当に申し訳なかったです。われわれも管理ツールや担当が別々で、しかもツールが違っていたので、障害の発見や解決が一元的に行なえなかったのです。いわば縦割りの運用体制、IT運用のサイロ化です。
アプリ開発部:もう1つ、われわれもアプリケーションの視点で障害を伝えられないので、インフラ担当者にどのように症状を伝えてよいかわかりませんでした。
西牧:つまり、われわれが必要なのは、アプリケーション、仮想マシン、ストレージなどさまざまな環境を横断して、詳細な情報が収集できる統合監視環境です。すべての領域で性能を監視し、個別のアプリケーションの要素から問題点を洗い出し、同一画面でチェックできる理想のシステム管理。今回われわれが導入するソーラーウインズの4製品を組み合わせれば、できるはずです。
ウインズ:(西牧、1年ですっかり成長したな)
この連載の記事
-
第6回
デジタル
西牧とウインズ、アプリ開発部隊“19階”からの要求に応えられるのか? -
第5回
デジタル
隣のシステムはオールグリーン?サーバーだって監視したい -
第4回
デジタル
単なる障害検知じゃ意味ない!現場のエンジニアがNPMをつっこむ -
第3回
デジタル
エンジニアだらけの社内デモ!ネットワーク監視は簡単に始められる -
第2回
デジタル
ネットワーク管理ツールなんて10年早いは本当か? -
第1回
デジタル
現場は戦場だった!インフラ運用に配属された僕の悲劇 - この連載の一覧へ