“同じファクト”に基づきチーム横断で原因追及、インシデント解決時間を60%短縮

監視リソースは2000以上　SBI証券がDatadogによる大規模監視で目指すこと

2025年04月16日 08時00分更新

文● 福澤陽介／TECH.ASCII.jp

“経験と勘”からの脱却、問題解決の時間を60%短縮

　Datadogで得られたもうひとつの効果が、「問題特定までの時間短縮」だ。チーム横断で障害原因を究明できるようになったことに加え、これまで粗い粒度でしか取得できなかった指標が、より細かく、リアルタイムで得られるように。例えば、債券販売サイトでは、瞬間的に100倍ほどリクエスト量が跳ね上がる新発債時に、注文数が上限を超えて発生していないかをリアルタイムで可視化できるようになった。

　類似したエラーをグルーピングできる「エラー追跡（Error Tracking）」や、AIで異常を自動検出する「Watchdog」など、早期検知を実現する機能の活用も進めている。その結果、問題解決までの時間を60%短縮できているという。

　生田氏は、新たな監視体制だからこそ解決できたエピソードとして、あるアプリケーションで発生したインシデントについて振り返る。アプリ側に問題はなく、インフラチームにも調査を依頼したものの、なかなか原因が特定できない。

　そこで、機械学習によって異常のあるメトリクスと同じ“波形”のメトリクスを見つける「メトリクス相関機能」を活用。同様に影響を受けたアプリケーションを特定して、ファクト的に「共通するネットワーク」に問題があると推定した。すると、一度は問題ないと言われていたISP側で、障害が起きていたことが判明。生田氏は、「Datadogのダッシュボードや機能を通じて、各チームが同じファクトを突き詰めるようになり、経験や勘だけでは判明しなかったインシデントの原因も突き止められるようになった」と説明する。

メトリクス相関機能のイメージ（Datadogのブログより）

自動化の先に見据える“顧客中心主義”のための運用最適化

　今後、SBI証券は、未だメトリクスもとれない一部のレガシーシステムを含め、すべてのシステムを統合監視すべく検証を進めていく予定だ。別ツールで対応していた、アラートのプッシュ通知などに対応する「オンコール（緊急対応）機能」も採用予定で、さらなるDatadogへの統合を図っていく。

　さらには、問題の集約プロセスを自動化する「Event Management」や、復旧プロセスを自動化する「App Builder」や「Workflow Automation」の活用も検討中であり、運用業務の効率化にも着手する。「Datadogが分析ツールとして浸透したのが今の状況。そこから、どう生産性を向上させるかに、踏み込んでいく」と生田氏。

　こうした自動化により生まれた時間で、サービスに必要なキャパシティを予測して、リソースを最適化する「キャパシティマネジメント」に注力していく。横断的な専門チームを立ち上げ、Datadogで得られるようになった指標をもとに、どうしたら予測精度を高められるかを議論しているところだ。

　そして、ここまで紹介したIT運用の変革も、サービスの安定性と品質を維持するという“顧客中心主義”を徹底するための手段に過ぎないという。加えて、生田氏は、「顧客中心主義を貫きつつ、サービスを維持しているエンジニアに過剰な負荷をかけすぎないよう、運用の最適化を常に意識していく」と説明。「それがゆくゆくは顧客体験の向上にもつながる」と語った。