スキルゼロのエンジニアが1年で運用デスマを解消した話 第1回
データセンターの妖精「ウインズ」の登場でデスマが変わる?
現場は戦場だった!インフラ運用に配属された僕の悲劇
2015年06月12日 15時00分更新
老朽化した機器が悲鳴を上げ、ネットワークが切れ、意味不明のエラーに悩まされる。運用デスマに巻き込まれたエンジニアは、ある日「運用現場は戦場よ!」が口癖の妖精に出会う。
運用管理ツールの導入プロジェクトがストップしたわけ
中堅情シス子会社に新卒で入った西牧太陽25歳。新卒で入って以来、親会社である製造業のシステム開発を請け負っていたが、半年前、親会社の業績不振でERP刷新やIoTなどを見越した新規プロジェクトがいきなり凍結。運用スキルゼロにもかかわらず、上司とともに配置転換され、自社向けのデータセンターの運用部隊に組み込まれる。
運用部隊に入って西牧が驚いたのは、開発だけではなく、運用でもデスマがあるということ。そもそもデータセンター自体が旧世代なのに加え、この10年で場当たり的に強化されたシステムの機器はベンダーも世代もバラバラ。老朽化した機器の故障でネットワークが切れることもあるし、パッチの更新時に動作の不具合が出ることもある。また、親会社と子会社のシステムが複雑でスパゲッティ状にからみあっているため、構築・保守作業の人為的なミスでシステムがダウンすることもあるようだ。小さいことから大きいことまで、とにかくトラブルが多い。
トラブルがようやく解決し、久しぶりに家に帰ることになった西牧は上司にあたる課長の八尋と一杯やっていた。もちろん、話題は会社の運用の課題と解決策だ。
八尋課長:いやあ、今回のトラブルも大変だったな。とにかく原因不明で、解決まで長引いたのでへとへとだ。
西牧:サブシステムのDBアクセスの不具合が、スイッチの不良で起こっているとは思いませんでした。通信が切れたわけでもなく、伝送能力が著しく落ちたというたぐいのトラブルは本当に難しいですね。経験がないとはいえ、もう少し早く発見できたんじゃないかと思って、反省しています。
八尋課長:いや、西牧のせいではなく、これは運用体制そのものの問題なんだよ。もともと運用のメンバーも親会社や関連会社のシステムをデータセンターに統合した経緯があるので、元の会社からの出向でシステムをメンテナンスしていることが多い。つまり、同じ運用チームでありながら担当範囲は当人以外わからない。完全に属人化しているので、チームでの対応が難しいんだ。
西牧:そうなんですよね。自前のシェルスクリプトで独自に運用している人も多いから、他の担当がなにをやっているか僕も全然わからなくて……。しかも、担当によってサーバー、ストレージ、ネットワーク、データベースなどカバーする分野も違う。はっきり言ってたタコツボ状態です。だから、トラブルが起こった場合に原因を特定するのが大変です。
八尋課長:障害の原因を求めてベンダーと担当の間をたらい回しにされ、今回みたいに何日も帰れないこともある。現場の風通しが悪いと、ますます暗くなるし、よくないよなあ。まあ、それでも日本のSIerは努力と根性で、なんとかしてきたんだ。がんばろう!
西牧:昨年来から障害を検知したり、性能を測定するシステム運用管理ツールを導入しようというプロジェクトもあったと聞いていますが……。
八尋課長:ああ、あれか。現場が意外と導入に後ろ向きで、凍結されたそうだ。高性能なものは当然金額もすごかったり、手頃なものでも設定や操作が難しかったりしてな。専用の研修をやってくれる業者もあるけど、それはそれでコストと時間をとられる。現場が抵抗感を持つのも仕方ないかもしれないな。
西牧:ほかの会社はツールを導入したり、ITIL取得したりで、運用レベルを上げているのになあ。
八尋課長:うちの会社で評価したツールの中では、ソーラーなんたらってのが、わりと良かったらしいが……。まあ、なくなったものは仕方がない。みんなの力があれば、現場は必ず良くなる! 考えるより手を動かして、早く新規プロジェクト再開のときに備えよう。
西牧:は、はい。
熱血漢の八尋課長は努力と根性でプロジェクトを回す嫌いがある。チームをまとめる能力は高いのだが、自動化や効率化というところに目が行ってないので、西牧と話がすれ違うことも多い。
確かに西牧たちの努力でシステムの運用はなんとか回っている。だが、いったん障害が発生すれば、深夜だろうが、休日だろうが、会社に呼び出されるし、そのまま解決の目処がつかずデスマーチとなる。開発と違って運用では、トラブルがいつ起こるかわからないため、つねに緊張状態が続く。まるで終わらない戦いだ。西牧はいつも疑問に感じていた。「ひょっとして、うちの会社の運用体制は、思っているよりずっと悪いんじゃ……?」
(次ページ、運用現場は戦場だ!厳しめなデータセンターの妖精)
この連載の記事
-
最終回
デジタル
ソーラーウインズの統合監視システムで運用は本当に変わったのか? -
第6回
デジタル
西牧とウインズ、アプリ開発部隊“19階”からの要求に応えられるのか? -
第5回
デジタル
隣のシステムはオールグリーン?サーバーだって監視したい -
第4回
デジタル
単なる障害検知じゃ意味ない!現場のエンジニアがNPMをつっこむ -
第3回
デジタル
エンジニアだらけの社内デモ!ネットワーク監視は簡単に始められる -
第2回
デジタル
ネットワーク管理ツールなんて10年早いは本当か? - この連載の一覧へ