輝け！クラウド運用エンジニア！ Cloud Operator Days Tokyoが今年も開催

先行企業に学ぶAIOpsの現在、ぐるなびは生成AI＋RAGで障害対応を効率化

2024年07月19日 13時00分更新

文● 福澤陽介／TECH.ASCII.jp

　クラウド運用に携わる技術者のためのハイブリッドイベント「Cloud Operator Days Tokyo（CODT） 2024」が、2024年7月16日から9月6日まで開催されている。

　第5回となる今年のテーマは、「運用者に光を！～ AIの未来、運用者の現実～」。AIの進化とクラウド運用の現場がどう作用し合うかが、セッションを通じて語られる。先行開催されたプレスイベントにおいても、ぐるなびとサイバーエージェントのAIOpsの取り組みが披露された。

「Cloud Operator Days Tokyo 2024」イベントサイト

クラウド運用に光を当てるCODTが今年も開催、2段階の発表方式で約50のセッションが展開

　CODT 2024の実行委員長を務める長谷川章博氏は、「エンジニア、特に運用に関わるエンジニアは陽の目を見る機会が少ない。トラブルが発生すると責められることが多いが、誰もが安心して使えるシステムにおいて運用者の果たす役割は大きい」と強調する。

Cloud Operator Days Tokyo 2024実行委員長 / AXLBIT 長谷川章博氏

　CODTは、クラウドシステムの運用者（オペレーター）に光を当て、日々取り組んでいる挑戦や成功・失敗体験、得られたノウハウなどを分かち合うことで、日本の運用者の底力を高めることを目的とする技術イベントだ。「技術者の地位向上」「知的好奇心を高める」「若手エンジニアの育成」を3本柱として、単に技術セッションを展開するだけではなく、優秀な運用者を選考・審査し「輝け！クラウドオペレーターアワード」として表彰する。

　今年は、オンデマンド配信で49のセッションが展開される。加えて、9月6日にお台場で開催されるクロージングイベントでは、特に参加者の関心が高かったセッションの発表者が講演を行い、その中からアワードを決めるといった2段階の発表方式を採用する。

CODT 2024の発表方式

　セッションのテーマは、「運用苦労話」「運用自動化」「監視・ログ・オブザーバビリティ」「OpenStack」「チーム作り／人材育成」「パブリッククラウド運用」「AIOps」「クラウドセキュリティ」の全8つ。プレスイベントでは、テーマのひとつであるAIOpsの取り組みについて、ぐるなびとサイバーエージェントより披露された。

RAGで変わるナレッジ管理、ぐるなびのAIOpsによる障害対応の効率化

　ぐるなびは、3200万人の月間ユニークユーザーを抱える飲食情報サイト「楽天ぐるなび」を中心に、外食産業と国内外の消費者をつなぐ「ぐるなびネットワーク」を築いて、事業の拡大を続けている。

　そんなぐるなびの運用現場で課題となっていたのは、「オンボーディングのプロセス」と「ナレッジの散在」だ。

　システムが複雑化していくにつれ、新規メンバーがチームに参加するためのオンボーディングに要する時間も長くなる。加えて、障害対応のナレッジが散在しているため、現場では個々のメンバーの経験や判断に依存してしまい、チームを異動してしまうと運用が回らなくなる。

　このように運用ナレッジが活用されづらい理由を、ぐるなびのCTOである岩本俊明氏は、「表現の違いによる一貫性の欠如」と「可読性の低下」だと説明する。

ぐるなび CTO 岩本俊明氏

　一貫性の欠如については、障害対応の手順をランブック（Runbook）として文書化していたが、どうしても人によって表現の差が発生して、ナレッジの活用を妨げてしまう。さらに、異なる表現が混在したまま蓄積されていくと、ドキュメント全体の可読性も低下する。「新しいメンバーが入っても、何が書いてあるのか全然わからない。ナレッジに頼れないため、自身で判断したり、詳しい人に聞いてしまう」と岩本氏。

　この課題を解決するために注目したのが生成AIだ。生成AIを介することで、表現のばらつきは排除でき、文章自体も読みやすく整理される。

　従来の障害対応プロセスは、様々なモニタリングツールからSlackを通じてアラートが送られ、担当者がその障害を認識。その後、ナレッジベースなどのドキュメントを参照しながら対応するが、実際には詳しい人に助けを求める展開になりがちだったという。

　こうしたプロセスは、チームに参加したてのメンバーにとってハードルが高い。障害の影響範囲などがすぐに把握できないだけでなく、そもそも応援を呼ぶべきか、応援を呼ぶ場合も誰が詳しいのか、エスカレーション先はどこかなど、考慮すべきポイントが多いからだ。

従来の障害対応時のプロセス

　そこで、ぐるなびでは、RAGの手法を用いて、生成AIで障害ナレッジを自動通知する仕組みを構築した。モニタリングツールからSlackにアラートが届くと、AIがアラートを解析。アラートの内容に合わせたナレッジの要約が、参照元の情報と一緒に対応者に届く。また、アラートに対応した関係者の情報も提供される。

　もっとも、AIの提案内容が常に正しいとは限らないため、アラートを基にしたナレッジの通知とは別に、AIを介してナレッジ検索をかけて、情報が合っているかを確かめることも重要だという。

障害ナレッジの自動通知

　また、Slackが見られない環境においても、ウェブUIから同様の仕組みで、AIを介したナレッジ検索をすることも可能だ。「誰かが雑に残した文章であっても、生成AIによって整えられた形でナレッジが返ってくるのが大きい」と岩本氏。

ウェブUIでナレッジ検索

　このように、AIによってナレッジを自動ハンドリングさせるメリットのひとつは、ナレッジの最新化だ。ナレッジを追加すると自動的に反映され、AIが参照元を示すので最新の内容かどうかも判断しやすい。また、技術には関係ない“関係者の特定”といった社内の情報が必要となる対応も、生成AIがサポートしてくれるため、オンボーディングの時間も短縮できる。

　RAGを用いるうえでは、注意すべき点もあるという。岩本氏は、「社内にはRAGを用いた仕組みがたくさんあるが、（回答の）精度が低い状態が続くと、使われなくなる恐れがある。（精度が低いのは）参照元のデータの質が悪いなど、主にデータの問題が大きい。精度向上のために改善を繰り返す必要がある」と説明した。

前へ 1 2 次へ

ツイートする

カテゴリートップへ