このページの本文へ

前へ 1 2 次へ

最新ユーザー事例探求 第62回

“同じファクト”に基づきチーム横断で原因追及、インシデント解決時間を60%短縮

監視リソースは2000以上 SBI証券がDatadogによる大規模監視で目指すこと

2025年04月16日 08時00分更新

文● 福澤陽介/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 1日の取引量が最大2兆円を超える国内株式の取引システムを、拡張性とレジリエンスを高めるべくAWSのクラウド環境に移行したSBI証券(参考記事:1日2兆円超の処理をクラウドで ― SBI証券が国内株式の取引システムをAWSに移行完了)。

 SBIグループ全体がクラウドネイティブ化を進める中で、並行してモダナイズを進めているのが「監視システム」だ。これまで10個のツールにサイロ化していたものをDatadogに統合、AWS環境に対応させつつ、システム全体の監視体制を築いた。現在の監視対象リソースは「2000以上」にも上る。すでに、運用負荷の軽減やインシデント解決時間の短縮を実現しており、今後はキャパシティ予測にも取り組む。

 SBI証券の執行役員 リテールIT部長である生田貴則氏は、「大規模でミッションクリティカルなサービスの運用監視において、我々が目指すのは“顧客中心主義”を徹底していくこと」だと強調する。「“顧客体験”と“内部リソース”の関連を明確に把握することで、サービスの安定性と品質を維持すること」が目標だ。

SBI証券 執行役員 リテールIT部長 生田貴則氏

クラウド化を推進する中、サイロ化されていた監視システム

 SBI証券のDatadog利用は、2020年、顧客視点でアプリケーションのパフォーマンスを把握する「外形監視」のために導入したところから始まった。それまでは、負荷検証ツールである「JMeter」を利用していたが、一部の指標でしかユーザー体験を測れず、設定が煩雑でアプリケーションのリリース速度についていけなかった。そこでたどり着いたのが、外形監視が容易であり、UXも優れていたDatadogだったという。

 その後、SBI証券およびSBIシンプレクス・ソリューションズで本格利用を始めたのが2023年末。SBIシンプレクス・ソリューションズは、2023年に設立された、SBIグループのシステム開発や運用保守を担う企業(シンプレクス・ホールディングスとの合弁会社)である。

 本格利用のきっかけは、2022年に、クラウド活用を推進する内部組織「CCoE(Cloud Center of Excellence)」が立ち上がったことだ。CCoEの立ち上げにともなって、冒頭で触れた国内株式取引システムをはじめ、フロントアプリケーションや統合DB、バッチ処理など、同社の多岐にわたるシステムのAWS移行がスタートした。加えて、スマホサイトやアプリ、顧客取引の認可の仕組みなど、新規システムでも「AWSの利用が膨れ上がっていた」と生田氏。

 その一方で、監視システムは、Datadogによる外形監視以外はオンプレミスツールが中心だった。加えて、死活監視やメトリクス収集、アラート発報、DB監視など、目的ごとに個別のツールが運用され、情報もサイロ化(分断)していた。

かつてのSBI証券の監視システム

 OSSが中心のこれらの監視ツールは、AWS環境にも最適化されておらず、「クラウド環境が中心になっていく中で、監視はこのままでよいのか」という議題が持ち上がる。SBIシンプレクス・ソリューションズのアーキテクト推進部 ジェネラルマネジャーであるタナシャイ スントーンウティクル氏は、「当時のAWS純正ツールは、アカウントをまたいだ全体監視ができず、使い勝手も不十分だった。そこで、監視システムでも“クラウドネイティブ”なツールを探し始めた」と振り返る。

SBIシンプレクス・ソリューションズ アーキテクト推進部 ジェネラルマネジャー タナシャイ スントーンウティクル氏

 SBI証券がDatadogを選択した理由は、使いやすさに加えて、同グループのガバナンスの方針であった「データは原則国内に保存する」という要件に対応できたことだ。Datadogは、2023年6月に国内データセンターを開設。加えて、海外からのデータ転送コストも優秀だった。

 こうして、AWS環境に対応でき、既存の監視ツールを統合するオブザーバビリティ基盤として、Datadogの本格利用が決定した。

“同じファクト”に基づきチーム横断で原因を究明できる体制へ

 SBI証券は、開発環境と一部システムのインフラ監視とログ管理からDatadogの利用を開始した。その後、アプリケーション(APM)からデータベース、ネットワーク、ネットワークデバイスの監視や監査証跡まで、対象のシステムと利用サービスを拡大していく。

 現在の監視対象は、AWS EC2やAWS Fargateを中心としたAWS環境と、従来監視してきたオンプレミス環境の両方であり、監視対象リソースは2000から3000にも上る。うち、データベースは100インスタンス以上、ネットワークデバイスも膨大な数を監視しているという。

SBI証券におけるDatadogのシステム構成図

 ただし、運用上の課題は、監視対象が多いことよりも「監視に携わるチームの数が多い」(生田氏)ことだったという。CCoEチームからアプリケーションチーム、DBチーム、ネットワークチームまで、総計で約350名のエンジニアが監視業務に携わる。

 従来環境では、目的や対象によってツールが分かれていたため、「各メトリクスが他チームでは見られず、情報の非対称性(情報の格差)が生じていた」と生田氏。そのため、Datadog導入による一番の効果は、「チームを横断してファクトベースで調査ができるようになった」ことだと語る。

 Datadogの利用を機に、チームごとに必要な指標が一目で分かるダッシュボードを作成。今では、サービスのピークとなる9時(最初の取引時間)には、各チームがそれぞれの視点でダッシュボードを監視するのが日常となっている。そして、何か問題が発生した際は、Teamsを介してすべてのエンジニアにダッシュボードが共有される。

 「柔軟にカスタマイズ可能なダッシュボードで、サブシステム単位での状況からサーバー内アプリケーションの挙動、ネットワークやDBの動作、ユーザー体験、ビジネス上の指標までを単一画面で視覚的に把握できるようになった。さらには、各チームが同じ画面を見ながら、サービスを守るためのシナジーを発揮できるようになっている」(生田氏)

チーム横断で問題原因を究明できるように

 こうして一元的に必要な指標にアクセスできる監視体制を構築したことで、運用効率が高まり、各チームの事象の証明が容易になる。加えて、開発者の「監視に対する関心」も向上したという。生田氏は、「今までは、何か問題が発生しなければログも見ることがなかった。自らダッシュボードを構築して、それを自ら見るという状況をつくることで、自然と関心が集まるようになった」と強調する。

前へ 1 2 次へ

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事

アクセスランキング

  1. 1位

    トピックス

    “持たない家電”ランキング、もはや定番のアレがやっぱり1位なような

  2. 2位

    トピックス

    思い切った慶應義塾 全教職員にNotion導入で168年分の知的資産をAIに食わせるプロジェクトが始動

  3. 3位

    ビジネス

    管理職こそ大事にしないとまずくないか? 約4割が「続けたい、と答えない」現実

  4. 4位

    TECH

    訓練だとわかっていても「緊張で脇汗をかいた」 LINEヤフー、初のランサムウェア訓練からの学び

  5. 5位

    トピックス

    インバウンドの頑張りランキングベスト3は「大分県」「岐阜県」「佐賀県」 努力が光る結果に

  6. 6位

    データセンター

    液冷技術の最先端が集うイノベーションラボ「DRIL」、印西のデータセンターに現わる

  7. 7位

    トピックス

    リモートワークは福利厚生なの? ITエンジニアが本当に欲しい福利厚生第1位となる

  8. 8位

    ビジネス

    ランチ抜きが22%!? 物価高で「水筒・コンビニ控え」が定着する中、なぜか「推し活・美容費」だけは死守するオフィスワーカーたち

  9. 9位

    TECH

    身代金要求攻撃の被害額は「1社平均6.4億円」 それでも6割超が「支払いを否定しきれない」苦境

  10. 10位

    ビジネス

    廃校がAIの心臓部に!? 地方の遊休施設を「AIデータセンター」に生まれ変わらせるハイレゾの挑戦がアツいぞ

集計期間:
2026年04月14日~2026年04月20日
  • 角川アスキー総合研究所