このページの本文へ

年次イベント「Datadog DASH 2024」基調講演レポート

Datadog、LLMオブザーバビリティからオンコールまで基盤を多面的に強化

2024年07月03日 09時00分更新

文● 末岡洋子 編集●大塚/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

OpenTelemetoryとの統合を進める、導入企業としてGitHubが登壇

 オブザーバビリティでは、「OpenTelemetory」のサポートにも大きなフォーカスが当たった。APMとOpenTelemetoryを担当するエンジニアリングディレクターのゴードン・ラドレイン(Gordon Radlein)氏は、「OpenTelemetoryはその上に機能を構築できる標準ベースの土台だ。移植性、相互運用性などをもたらし、この分野のイノベーションを加速する技術だ」と話す。DatadogはOpenTelemetoryのトップ10コントリビューターに入っているという。

 これまでDatadogはOpenTelemetory Collector向けのDatadog Exporter、Datadog APMトレーサーにおけるW3C Trace Contextのサポートなどを進めてきたが「インスツルメンテーションに止まっていた」とラドレイン氏。今回のDASHでは、新たにDatadogエージェントとOpenTelemetory colletorの統合を発表しており、「エージェントとコレクタが一体となる。大きな一歩だ」と表現した。

Datadogの主要なオブザーバビリティ製品とOpenTelemetoryの機能を同時に利用できるため、「どちらかを選ぶ必要はなくなる」とアピールした

 基調講演で登壇したGitHubのプリンシパル・エンジニア、ミシェル・ティトロ氏は、同社におけるOpenTelemetoryとDatadogの導入経験を紹介した。

GitHubのプリンシパル・エンジニア、ミシェル・ティトロ(Michelete Titolo)氏

 オープンソースソフトウェア開発のプラットフォームとして世界最大規模を誇るGitHubでは、毎日50億のAPIリクエストを処理し、4200万以上のリポジトリで1億人がコラボレーションを行っている。この巨大なプラットフォームを支えるコンテナ、仮想マシン、ベアメタルマシンなどすべてのリソースに対して、OpenTelemetoryを使ってトレーシング(監視)できる体制を整えている。

 ティトロ氏は、ここに至るまでの歴史を紐解いた。まず2016年にはGithub.comでトレーシングを開始したが、当時はOpenTelemetoryはもちろん、オープンな標準仕様が存在しなかったため、ベンダー独自のプロプライエタリな技術を使っていた。その後、新たに登場したOpenTracingを導入し、2021年5月には(OpenTracingとOpenCensusがマージした)OpenTelemetoryを採用。2022年1月から本番導入を始め、2023年7月まで各サービスのOpenTelemetoryへのマイグレーションを進めた。

 OpenTelemetoryに切り替えたことで、それまで利用してきたベンダーに依存する意味がなくなり、2023年7月には乗り換え先ベンダーの評価を開始。その月には、Datadog APMのPoCも開始した。そして2カ月後、Datadog APMのマイグレーションをスタートして、10月にはそれまでのベンダー製品によるトレーシングを完全に無効にした。

 「わずか4カ月で、移行の検討から完了を成し遂げた。これがOpenTelemetoryとベンダー中立のツール(Datadog)のパワーだ」(ティトロ氏)

GitHub.comにおけるOpenTelemetory採用の歴史

PagerDutyはどうなる? Datadogにオンコール機能が登場

 来場者の反応が大きかった新機能が「Datadog On-Call」(ベータリリース)である。オンコールエンジニア向けに構築された機能で、インシデント管理、オンコール、オブザーバリティを統合して、インシデント対応を迅速化かつ効率化するという。

 ここではメンバーのスケジュール、適切な担当者にアラートを届けるためのエスカレーションポリシー、サービスカタログとの統合といった機能を備える。ページング方法はメール、モバイルへのプッシュ通知、SMS、電話などから設定でき、DatadogだけでなくZabbixなどサードパーティツールも対象にできる。

 ページングを受け取った担当者は、Datadogのモバイルアプリで詳細情報を確認したり、ページングが入らないように設定したりできる。関連するダッシュボード、ログ、トレースなどの情報をまとめた緩和策のプレイブックも確認できる。確認後に「インシデントの宣言」を行うと、関連する担当者にページングが届き、コミュニケーションチャネルが開設され、コパイロット「Bits AI」のガイドを得ることもできる。

「Datadog On-Call」の画面

 インシデント対応では、「Bits AI for Insident Managemt」がGAになったことも発表した。また、自律型AIエージェントの「Bits Autonomous Investigations」も発表した(ベータ)。観測、プランニング、アクションを継続して行うもので、エンドツーエンドでのインシデント対応の自動化を支援する。

 Slackと連携し、アラートを検出してNotebookで調査を開始したことを報告したり、取るべきステップを提案するといったことができる。JiraやServiceNowとも連携が可能だ。デモでは、担当を割り当てて、Change Trackingなどの機能を使いながら一緒に解決する様子を見せた。

「Bits AI for Insident Managemt」のデモ

カテゴリートップへ

  • 角川アスキー総合研究所
  • アスキーカード