最新ユーザー事例探求 第62回
“同じファクト”に基づきチーム横断で原因追及、インシデント解決時間を60%短縮
監視リソースは2000以上 SBI証券がDatadogによる大規模監視で目指すこと
2025年04月16日 08時00分更新
1日の取引量が最大2兆円を超える国内株式の取引システムを、拡張性とレジリエンスを高めるべくAWSのクラウド環境に移行したSBI証券(参考記事:1日2兆円超の処理をクラウドで ― SBI証券が国内株式の取引システムをAWSに移行完了)。
SBIグループ全体がクラウドネイティブ化を進める中で、並行してモダナイズを進めているのが「監視システム」だ。これまで10個のツールにサイロ化していたものをDatadogに統合、AWS環境に対応させつつ、システム全体の監視体制を築いた。現在の監視対象リソースは「2000以上」にも上る。すでに、運用負荷の軽減やインシデント解決時間の短縮を実現しており、今後はキャパシティ予測にも取り組む。
SBI証券の執行役員 リテールIT部長である生田貴則氏は、「大規模でミッションクリティカルなサービスの運用監視において、我々が目指すのは“顧客中心主義”を徹底していくこと」だと強調する。「“顧客体験”と“内部リソース”の関連を明確に把握することで、サービスの安定性と品質を維持すること」が目標だ。
クラウド化を推進する中、サイロ化されていた監視システム
SBI証券のDatadog利用は、2020年、顧客視点でアプリケーションのパフォーマンスを把握する「外形監視」のために導入したところから始まった。それまでは、負荷検証ツールである「JMeter」を利用していたが、一部の指標でしかユーザー体験を測れず、設定が煩雑でアプリケーションのリリース速度についていけなかった。そこでたどり着いたのが、外形監視が容易であり、UXも優れていたDatadogだったという。
その後、SBI証券およびSBIシンプレクス・ソリューションズで本格利用を始めたのが2023年末。SBIシンプレクス・ソリューションズは、2023年に設立された、SBIグループのシステム開発や運用保守を担う企業(シンプレクス・ホールディングスとの合弁会社)である。
本格利用のきっかけは、2022年に、クラウド活用を推進する内部組織「CCoE(Cloud Center of Excellence)」が立ち上がったことだ。CCoEの立ち上げにともなって、冒頭で触れた国内株式取引システムをはじめ、フロントアプリケーションや統合DB、バッチ処理など、同社の多岐にわたるシステムのAWS移行がスタートした。加えて、スマホサイトやアプリ、顧客取引の認可の仕組みなど、新規システムでも「AWSの利用が膨れ上がっていた」と生田氏。
その一方で、監視システムは、Datadogによる外形監視以外はオンプレミスツールが中心だった。加えて、死活監視やメトリクス収集、アラート発報、DB監視など、目的ごとに個別のツールが運用され、情報もサイロ化(分断)していた。
OSSが中心のこれらの監視ツールは、AWS環境にも最適化されておらず、「クラウド環境が中心になっていく中で、監視はこのままでよいのか」という議題が持ち上がる。SBIシンプレクス・ソリューションズのアーキテクト推進部 ジェネラルマネジャーであるタナシャイ スントーンウティクル氏は、「当時のAWS純正ツールは、アカウントをまたいだ全体監視ができず、使い勝手も不十分だった。そこで、監視システムでも“クラウドネイティブ”なツールを探し始めた」と振り返る。
SBI証券がDatadogを選択した理由は、使いやすさに加えて、同グループのガバナンスの方針であった「データは原則国内に保存する」という要件に対応できたことだ。Datadogは、2023年6月に国内データセンターを開設。加えて、海外からのデータ転送コストも優秀だった。
こうして、AWS環境に対応でき、既存の監視ツールを統合するオブザーバビリティ基盤として、Datadogの本格利用が決定した。
“同じファクト”に基づきチーム横断で原因を究明できる体制へ
SBI証券は、開発環境と一部システムのインフラ監視とログ管理からDatadogの利用を開始した。その後、アプリケーション(APM)からデータベース、ネットワーク、ネットワークデバイスの監視や監査証跡まで、対象のシステムと利用サービスを拡大していく。
現在の監視対象は、AWS EC2やAWS Fargateを中心としたAWS環境と、従来監視してきたオンプレミス環境の両方であり、監視対象リソースは2000から3000にも上る。うち、データベースは100インスタンス以上、ネットワークデバイスも膨大な数を監視しているという。
ただし、運用上の課題は、監視対象が多いことよりも「監視に携わるチームの数が多い」(生田氏)ことだったという。CCoEチームからアプリケーションチーム、DBチーム、ネットワークチームまで、総計で約350名のエンジニアが監視業務に携わる。
従来環境では、目的や対象によってツールが分かれていたため、「各メトリクスが他チームでは見られず、情報の非対称性(情報の格差)が生じていた」と生田氏。そのため、Datadog導入による一番の効果は、「チームを横断してファクトベースで調査ができるようになった」ことだと語る。
Datadogの利用を機に、チームごとに必要な指標が一目で分かるダッシュボードを作成。今では、サービスのピークとなる9時(最初の取引時間)には、各チームがそれぞれの視点でダッシュボードを監視するのが日常となっている。そして、何か問題が発生した際は、Teamsを介してすべてのエンジニアにダッシュボードが共有される。
「柔軟にカスタマイズ可能なダッシュボードで、サブシステム単位での状況からサーバー内アプリケーションの挙動、ネットワークやDBの動作、ユーザー体験、ビジネス上の指標までを単一画面で視覚的に把握できるようになった。さらには、各チームが同じ画面を見ながら、サービスを守るためのシナジーを発揮できるようになっている」(生田氏)
こうして一元的に必要な指標にアクセスできる監視体制を構築したことで、運用効率が高まり、各チームの事象の証明が容易になる。加えて、開発者の「監視に対する関心」も向上したという。生田氏は、「今までは、何か問題が発生しなければログも見ることがなかった。自らダッシュボードを構築して、それを自ら見るという状況をつくることで、自然と関心が集まるようになった」と強調する。

この連載の記事
-
第61回
Team Leaders
リード発掘の秘訣は「ベテラン営業の知見×法人DB」 USEN ICT Solutionsにおける営業DXの歩み -
第60回
Team Leaders
規模拡大するSansanが抱えた“成長痛”、Notion全社導入と定着化で克服 -
第59回
ITトピック
「フェリーの待ち時間に仕事がしたい」島しょの自治体・竹富町がM365で進めるDX -
第58回
ビジネス・開発
モノタロウのデータ活用促進、秘訣は“縦に伸ばして横に広げる” -
第57回
ビジネス・開発
“物流の2024年問題”を転換点ととらえ社内データ活用を進める大和物流 -
第57回
ITトピック
米の銘柄をAIで判定する「RiceTag」 検査員の精度を実現する試行錯誤とは? -
第56回
ビジネス・開発
ノーコードアプリ基盤のYappli、そのデータ活用拡大を支えるのは「頑丈なtrocco」だった? -
第55回
ビジネス
国も注目する柏崎市「デジタル予算書」、行政を中から変えるDXの先行事例 -
第54回
IoT
“海上のセンサー”の遠隔管理に「TeamViewer IoT」を採用した理由 -
第53回
ネットワーク
わずか1か月弱で4500人規模のVPN環境構築、KADOKAWA Connected - この連載の一覧へ