PagerDuty on Tourで本社CEOと対談、生成AI機能「PagerDuty Advance」の日本語対応も発表
Windowsの大規模障害、JR東日本情報システムが得た教訓とは?
2024年08月09日 10時00分更新
「えきねっと」にPagerDutyを導入、ミッションクリティカルなインフラでの“NoOps”を目指す
JR東日本のITインフラにおいて、“インシデントへの備え”のひとつとなっているのが、PagerDutyのプラットフォームだ。
PagerDuty導入のきっかけは、日本法人社長の山根氏からの紹介。ただし「最初は半信半疑」(吉川氏)だったという。その後、米国本社を訪問して、いわゆる“NoOps”(システム運用の自動化と省人化)を目指す欧米での運用のスタンダードモデルについて議論する中で、ミッションクリティカルなJR東日本のサービスに合うのではと確信して、採用に至っている。2023年にPoCを始め、まずは、約20年前にスタートしたチケット予約サービス「えきねっと」での運用に向けて検証を進めている。
そもそも、JR東日本が中心となって運用するシステムやサービスは200から300にも上り、24時間体制でこれらを監視するオペレーションセンターと各サービスのメンテナンスチームには、多くのコストが発生している。一方で、ダウンタイムが長くなるほど、ユーザーに対する影響も増大するため、インシデントをいかに早く検知して復旧させるかは、最優先事項だ。吉川氏は、これらの2つの要素を解決できるのがPagerDutyだと評価する。
特に「えきねっと」では、お盆や年末年始など一部の期間にトラフィックが集中する。「トラフィックがスパイク(急増)した時にインシデントが発生すると、分刻みで大きな損失が発生する。それをいかに修復するかにおいてPagerDutyの効果は大きい」と吉川氏。オペレーションセンターがインシデントを発見して、運用担当者に連絡し、技術者と調整しながら対応するという一連のプロセスを短縮することができ、さらには人的コストも削減できる。
今後は、いかにPagerDutyやAIなどのテクノロジーを活用しながら、NoOpsをスタンダードモデルにできるかが課題だという。それに伴いPagerDutyの適用範囲を拡げていき、運用の改善や自動化によって生まれたコストを、サービス価値の向上に費やしていく意向だ。
テハダ氏は、「ワークフローをインテリジェントにオーケストレーションして、効率化する。そして、問題の発生を予測して未然に防ぐ。このようなAIOpsの取り組みをPagerDutyは10年以上続けてきた。それによってインシデントの影響範囲を縮小させ、無駄を省き、ビジネスの売上を向上させる。今後、ユーザーのプロダクトやサービスに対する要求が高まるにつれ、こうしたイノベーションが重要になっていく」と強調した。
運用・インシデント管理に生成AIの力を組み込む「PagerDuty Advance」が間もなく日本語対応
また、PagerDuty on Tourでは、同社の「PagerDuty Operations Cloud」に生成AIを組み込み、インシデント対応全体を支援する「PagerDuty Advance」も紹介された。
例えば、インシデント発生時には、PagerDuty Advanceと連携したSlackのチャンネル内に情報が集約され、AIアシスタントを介してインシデントに対する疑問を解消できる。社外や経営層、技術者向けのステータスアップデートや、インシデントに関する所見や今後の回避策などが盛り込まれたポストモーテム(事後検証)を自動生成する機能も備えている。
オペレーションセンターでの活用でも、トリアージを支援してくれたり、ランブック(手順書)を作成してくれたりと、更なるモダン化を進められる。
PagerDuty Advanceは、グローバルで正式版の提供を開始しており、日本語対応についても、8月28日にベータ版が、9月30日に正式版がリリースされる予定だ。