このページの本文へ

前へ 1 2 次へ

最新ユーザー事例探求 第62回

“同じファクト”に基づきチーム横断で原因追及、インシデント解決時間を60%短縮

監視リソースは2000以上 SBI証券がDatadogによる大規模監視で目指すこと

2025年04月16日 08時00分更新

文● 福澤陽介/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

“経験と勘”からの脱却、問題解決の時間を60%短縮

 Datadogで得られたもうひとつの効果が、「問題特定までの時間短縮」だ。チーム横断で障害原因を究明できるようになったことに加え、これまで粗い粒度でしか取得できなかった指標が、より細かく、リアルタイムで得られるように。例えば、債券販売サイトでは、瞬間的に100倍ほどリクエスト量が跳ね上がる新発債時に、注文数が上限を超えて発生していないかをリアルタイムで可視化できるようになった。

 類似したエラーをグルーピングできる「エラー追跡(Error Tracking)」や、AIで異常を自動検出する「Watchdog」など、早期検知を実現する機能の活用も進めている。その結果、問題解決までの時間を60%短縮できているという。

 生田氏は、新たな監視体制だからこそ解決できたエピソードとして、あるアプリケーションで発生したインシデントについて振り返る。アプリ側に問題はなく、インフラチームにも調査を依頼したものの、なかなか原因が特定できない。

 そこで、機械学習によって異常のあるメトリクスと同じ“波形”のメトリクスを見つける「メトリクス相関機能」を活用。同様に影響を受けたアプリケーションを特定して、ファクト的に「共通するネットワーク」に問題があると推定した。すると、一度は問題ないと言われていたISP側で、障害が起きていたことが判明。生田氏は、「Datadogのダッシュボードや機能を通じて、各チームが同じファクトを突き詰めるようになり、経験や勘だけでは判明しなかったインシデントの原因も突き止められるようになった」と説明する。

メトリクス相関機能のイメージ(Datadogのブログより)

自動化の先に見据える“顧客中心主義”のための運用最適化

 今後、SBI証券は、未だメトリクスもとれない一部のレガシーシステムを含め、すべてのシステムを統合監視すべく検証を進めていく予定だ。別ツールで対応していた、アラートのプッシュ通知などに対応する「オンコール(緊急対応)機能」も採用予定で、さらなるDatadogへの統合を図っていく。

 さらには、問題の集約プロセスを自動化する「Event Management」や、復旧プロセスを自動化する「App Builder」や「Workflow Automation」の活用も検討中であり、運用業務の効率化にも着手する。「Datadogが分析ツールとして浸透したのが今の状況。そこから、どう生産性を向上させるかに、踏み込んでいく」と生田氏。

 こうした自動化により生まれた時間で、サービスに必要なキャパシティを予測して、リソースを最適化する「キャパシティマネジメント」に注力していく。横断的な専門チームを立ち上げ、Datadogで得られるようになった指標をもとに、どうしたら予測精度を高められるかを議論しているところだ。

 そして、ここまで紹介したIT運用の変革も、サービスの安定性と品質を維持するという“顧客中心主義”を徹底するための手段に過ぎないという。加えて、生田氏は、「顧客中心主義を貫きつつ、サービスを維持しているエンジニアに過剰な負荷をかけすぎないよう、運用の最適化を常に意識していく」と説明。「それがゆくゆくは顧客体験の向上にもつながる」と語った。

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

アクセスランキング

  1. 1位

    デジタル

    実は“無謀な挑戦”だったルーター開発 ヤマハネットワーク製品の30年と2025年新製品を振り返る

  2. 2位

    ITトピック

    「全国的に大変な状況になっています」 盛岡のSIerが見た自治体システム標準化のリアル

  3. 3位

    ゲーム

    信長を研究する東大教授、『信長の野望』を30年ぶりにプレイ 「若い頃だったら確実にハマってた」

  4. 4位

    ゲーム

    92歳 vs 95歳が『鉄拳8』でガチ対決!? “ご長寿eスポーツ大会”が海外でも話題に

  5. 5位

    sponsored

    SIer/ネットワーク技術者こそ知ってほしい! 「AV over IP」がもたらすビジネスチャンス

  6. 6位

    デジタル

    ヤマハ、2026年夏にWi-Fi 7対応アクセスポイント投入 スケルトンモデルも追加で「見せたくなる」デザインに

  7. 7位

    TECH

    NTTが日比谷を「光の街」に。次世代通信技術を都市にインストール

  8. 8位

    ITトピック

    セキュリティ人材の課題は人手不足ではなく「スキル不足」/生成AIのRAG導入が進まない背景/日本で強いインフレ悲観、ほか

  9. 9位

    ビジネス・開発

    10年先にいる「将棋界」から学ぶ 強豪将棋AI・水匠チームが語る“人を超えたAI”との向き合い方

  10. 10位

    TECH

    2026年度始動の「サプライチェーンセキュリティ評価制度」 企業セキュリティが“客観評価”される時代に

集計期間:
2025年12月21日~2025年12月27日
  • 角川アスキー総合研究所