輝け!クラウド運用エンジニア! Cloud Operator Days Tokyoが今年も開催
先行企業に学ぶAIOpsの現在、ぐるなびは生成AI+RAGで障害対応を効率化
2024年07月19日 13時00分更新
マルチAIエージェントで進化するAIOps、サイバーエージェントが目指す「レビューするだけで済む運用」
続いては、2023年10月にAIオペレーション室を立ち上げたサイバーエージェントによる、“マルチAIエージェント”を用いた取り組みだ。
サイバーエージェントのAIオペレーション室 李俊浩氏は、前段としてAIOpsの主な機能として、運用状況を可視化する「レポート」、データを収集して統合、様々な分析を行う「データと分析」、インシデント対応やタスク、アラートなどの「自動化」、予測と予防で異常などを検知する「モニタリング」の4つを挙げた。
AIオペレーション室の課題は、これらのAIOpsの機能すべてに対応することが難しいという悩みだった。運用に関する専門知識を持ったメンバーが少なく、既存システムとの統合は難しく、そしてなによりAIOpsツールの導入にはコストがかかった。
そこで、「AIを活用して、専門知識がなくても複雑なIT運用タスクを簡単に管理・解決する」というAIOpsの本質に立ち返り、マルチAIエージェントの活用にたどり着いたという。
現在同社が検証を進めているのが、監視、異常検知、原因分析、修復、レポートという一連の障害対応プロセスにおいて、それぞれ専門性を持つ3種類のAIエージェント(すなわち“マルチAIエージェント”)に支援してもらうというアプローチだ。
例えば、「セキュリティAIエージェント」は、監視の支援を担い、脆弱性や情報漏えいなどを定期的に監視する。「分析AIエージェント」は、異常検知や原因分析、レポートにおける支援を担い、データを分析してレポート化してくれる。「プログラムAIエージェント」は、修復の支援を担い、ソースコードのエラーなどの解決策を提示してくれる。
これらの3つのAIエージェントはそれぞれ専門性を持って自律的に動き、さらに「スーパーバイザー」を担う親エージェントが、指令や情報を統括して、成果を提示するといった仕組みで、運用を効率化する取り組みを進めている。
例えば、SlackのAPIコールのエラーが発生した場合には、まずスーパーバイザーがログを読み込み、「ログを分析して、エラーを特定して、問題を解決する修正のコードを提供すること」といった、子エージェントのタスクの目的を設定する。それを受け、分析AIエージェントが、エラーの原因分析をして、解決方法を提示。その結果を、スーパーバイザーが報告するといった流れだ。
AIモデルを選定して、プロンプトを微修正するという取り組みから始まり、今では、ドメイン知識を追加して、上述のようなエージェントを“協力”させる仕組み、もしくは成果を競わせる“競争”の仕組みを検証中となり、特化型のマルチエージェントを運用する形としてAIOpsを進化させてきた。李氏は、「目指すところは、AIエージェントに動いてもらって『運用者はレビューするだけ』という未来像」だと語った。