クラウドベースのオブザーバビリティプラットフォームが進化
AIが異常を自動検知 デジタルビジネスを見守るNew Relic Oneに新機能
2021年04月08日 09時00分更新
New Relicは、クラウドベースのインストルメンテーション(計測)プラットフォームである「New Relic One」に、AIによって異常を自動検知する新機能を搭載した。2021年4月7日に開催された発表会ではエンジニアにとってのAIOpsのメリットや活用事例なども披露された。
AIによる異常検知、アラートノイズの低減やITSMとの連携強化も
AIOps(Artificial intelligence for IT Operations)によるインシデント対応を強化。New Relicの松本大樹CTOは、「システムの複雑化などによって発生している、人では気がつけない異常や挙動を検知したり、運用対応力を引き上げて、スキルを標準化したりといったメリットのほか、無駄な作業を削減することで、エンジニアリングリソースの効率化を図れる。優秀なエンジニアを、より重要な業務に割り振ることができ、問題解決までの時間をさらに短縮することができる」とした。
AIOpsによる自動異常検知(Anomaly Detection)では、アップストリームおよびダウンストリームのサービスにおける異常を検知して、可視化することで問題を発見する。機械学習を利用してパターンを検出し、異常値を明らかにすることで、トラブルシューティングの時間を短縮することができるという。同機能は無償で提供。「ログデータについても、異常値検出する機能をベータ版として提供する。より広い範囲での異常を自動検知することができる」としている。
また、スキルの平準化が可能になる根本原因分析(Root Cause Analysis)の機能では、AIを活用して、異常の可能性を提案するという。遅延が発生しているなどの要因をカテゴリー分けし、そこに新たなアプリケーションが影響しているといった、その原因となる要素を具体的に提案することで、修正や改善の作業に取り掛かりやすくする。また、原因の内容にあわせて最適な対応者候補を提案。松本氏は「データベースに問題があると分かった場合には、データベースの技術者に通知することで、工数負荷の削減と解決速度の向上につながる」と語る。
そして、アラートノイズの低減とITSMの連携強化によって、無駄な作業を削減し、エンジニアリソースを効率化できる機能も提供する。
松本氏は、「システムが複雑になると、原因がひとつでも、様々なサーバーにも同じ事象が影響し、アラートがあちこちで発生するということが日常的に起こっている。そのため、アラートに慣れてしまったり、根本原因が特定しにくいということが起こる。新機能では、AIを活用してアラートの相関関係を分析し、不要なアラートノイズを無くし、ひとつのアラートとして提示することができるようになる」という。ここでは、ServiceNowと双方向に統合することで、ServiceNowのリンクされたインシデントとも自動的に同期。松本氏は、「ServiceNowのユーザーは、この連携によって、より高度な運用が可能になる。すでにAWSとも連携しており、今後、ITSMに関するエコシステムは拡大していくことになる」とした。
エンジニアは多くの時間をシステムの保守にとられている
New Relicは、デジタルビジネスのあらゆる重要指標を観測可能にするオブザーバビリティ (可観測性)プラットフォームを提供する企業で、デジタルビジネスを構成するアプリケーションやインフラストラクチャーのほか、ユーザー側の顧客体験状況を観測することで、デジタルサービスの障害検知や顧客体験の低下検知、潜在的な問題やボトルネックを、早期に特定して、解決することを支援。カスタマーエクスペリエンスの向上を実現できるのが特徴だ。
2008年に米サンフランシスコで創業。全世界16拠点で展開し、従業員数は約2300人。1万7000社以上が利用しており、売上高は6億ドルとなっている。2018年に日本法人を設立しており、約500社が採用。製造、小売、通信、メディアなど幅広い業界で利用されている。
コマツでは、New Relicを導入することで、顧客サポートの問題解決速度を30倍に向上。ウイングアーク1stでは、運用管理効率を80%向上させたという。また、ダイキンでは、現場の熟練エンジニアのスキル継承や、海外への技術展開などにウェアラブルデバイスを活用。リモート環境での安定稼働のためにNew Relicを採用した。また、スマートドライブでは、アプリケーションモニタリングに加えて、Webブラウザ上でのユーザー体験からインフラストラクチャー、ログ管理までを、エンド・トゥ・エンドでサービスを可視化し、安定的な運用を実現したという。
New Relicの市場企画統括責任者の七戸駿氏は、「エンジニアは、多くの時間をシステムの保守に取られているのが実情だ。その結果、新たなビジネスに対応できなかったり、イノベーションを起こせなかったりといった負のサイクルに陥っている。オブザーバビリティプラットフォームを活用することで、エンジニアリングリソースの消耗を減らし、イノベーションにつなげることができる」と語る。
オブザーバビリティプラットフォームを活用することで、デジタルサービスの運用において、異変に気づくまでの時間を短縮し、細かなアラートをひとつのインシデントに統合。原因究明をスピードアップし、インシデントへの迅速な対応が可能になるという。
七戸氏は、「日本では、CPUやディスクの使用量管理、クラウド運用の管理といったインフラの監視は行われてきたが、提供しているデジタルサービスが快適に利用されているかといったことを監視し、迅速に対応するといったことがこれから求められる。オブザーバビリティにより、システムのメトリクス、イベント、ログ、トレースのデータをリアルタイムに取得し続け、つねにシステムの全容を把握し、改善ができる状態を提供することができる。システムに自らの状況を吐き出すという性質を持たせるものであり、毎日のように健康診断を受け続けているような状況を作り出すことができる」と語る。
データを元にレスポンスの遅い原因を深掘りできる
New Relic Oneは、「Telemetry Data Platform (テレメトリーデータプラットフォーム)」、「Full-Stack Observability (フルスタックオブザーバビリティ)」、「Applied Intelligence (アプライドインテリジェンス)」の3つの製品で構成。今回のAIOpsによる新機能は、Applied Intelligenceにおける強化になる。
New Relicの七戸氏は、「Telemetry Data Platformにより、あらゆるデータを取り込み、Applied Intelligenceによって、異常を検出し、分析することができる。そして、Full-Stack Observabilityによって、迅速な対応につなげることができるようになり、パフォーマンスの劣化のポイントなどをコードレベルで特定し、エンジニアが的確に対処できる」とした。
たとえば、ECサイトでは、収集したデータから、ページレスポンスが遅い場合に購入に至っている率が低いことを抽出。さらに、ページレスポンスが遅い場面を特定し、そこでは、JavaScriptが特定の処理に時間を占有していることが発見されると、それをさらに深掘りし、どのクエリーが性能劣化に影響しているのかをコードレベルで特定して、解決を図ることができるという。
また、Log Managementの機能拡充を、今後発表する予定を明らかにした。「日本の企業では、ログ管理や分析に取り組んでいるケースが多く、これを高度化したいといったニーズが多い。New Relicでログを取り込んで、分析し、運用に生かせるようになる」(松本CTO)としている。