RAG、マルチモーダル、AIエージェント　AI Challenge Dayで生成AIの高みを目指せ

2024年12月20日 09時00分更新

文● 大谷イビサ　編集●ASCII　写真●福澤陽介

提供: 日本マイクロソフト

ツイートする
一覧
お気に入り

　2024年11月14日、角川アスキー総合研究所（以下、ASCII）と日本マイクロソフトは、生成AIの活用コンテストである「第3回　AI Challenge Day 2024」を開催した。エンジニアがチームでRAGやマルチモーダルのお題に立ち向かう本イベントだが、今回はテーマがますますパワーアップ。マイクロソフトのパートナー8社が1週間かけて開発した成果物を披露した。

RAG・マルチモーダルに「エージェント」が加わった3回目

　ASCIIと日本マイクロソフトがタッグを組んだ「AI Challenge Day」もすでに第3回目。1日目は神戸、2回目は品川で開催されたが、今回の会場も品川。以前は2日間だった会期が1週間となり、午前中に成果物を提案した8社のメンバーは、日本マイクロソフトの会場に集まる。参加者に疲れが見えるのは気のせいだろうか。

　そんな中、スタートしたプレゼン大会の本番。まずは日本マイクロソフト執行役員常務パートナー事業本部長の浅野智氏から挨拶。「第1回目からこのイベントの大ファン」と語ってくれた浅野氏は、「こんな私も、20数年前にWindows ServerというOSを開発するエンジニアでした。そのときに比べると、参加者のみなさんが若返っていますし、女性メンバーがちらほらいらっしゃるのもうれしい」とコメント。

日本マイクロソフト執行役員常務パートナー事業本部長浅野智氏

　生成AIに関しても、この2年で一気に使われるようになり、75％のナレッジワーカーが利用し、この半年でポイントは倍増している。しかし、こと日本となると、言語、商習慣などの違いもあり、まだギャップがあると浅野氏は指摘。「まさにみなさんにそのギャップを埋めていただくべく、1週間がんばってもらいました。今回は難しいお題だと聞いているが、成果の発表を披露してもらえるとワクワクしている」とエールを送った。

　審査員の紹介に続き、第3回目のテーマについて説明したのはAI Challenge Dayのお題を作成している日本マイクロソフトの花ケ﨑伸祐氏。今回のテーマは1・2回目に比べても難易度の高い「Virtual Online Store Copilot」になる。あらかじめ用意された非構造化・構造化データを利用し、ECサイトの顧客体験を向上させ、販売戦略の策定や意思決定を支援するアシスタントの精度の高さを競う。

第3回目のテーマは「Virtual Online Store Copilot」

　花ケ﨑氏は、「ユーザーからの問い合わせに高い精度で答えるのは1・2回目と同じだが、今回はエージェントというエッセンスを加えました」とコメント。前回・前々回のPDFやWordなどにとどまらない幅広いデータセットも用意されていると説明した。

ECサイトの顧客支援とフィードバックを分析するエージェントを作る

　開催部門は、顧客の問い合わせに対する回答を行なうECサイトのヘルプアシスタント。事前に与えられたECサイトについての質問に対するヘルプアシスタントの回答が、用意された正解（Ground Truth）にどれだけ近づけるかを競う。テキストとマルチモーダルの30問が用意されており、GPT-4oを用いて評価する。もう1つの顧客フィードバック分析アシスタントはさらに難易度が高く、SNS分析や意思決定支援を実現するアシスタントの開発。こちらはデータ分析前提で、テキストで10問用意されている。

　ルールは基本的には1回・2回目と同じだが、今回は新たにデータベースサービスが追加された。「アーキテクチャは過去最大規模。単純にドキュメントがストレージに置かれているといった状況ではなく、受注基幹システムの一部を作ってあります」と花ケ﨑氏。CRMと連携するためのSNSのデータも生成してCosmos DBに配置してあり、業務システムと連携させるためのAPIも用意される。「APIを呼んでアクションを起こさないと結果がとれない。非常に難しい。私はニヤニヤしながらセットを作っておりました」（花ケ﨑氏）と相変わらずのドSぶりだ。

日本マイクロソフト花ヶ崎伸祐氏

　最終回答はCSVに貼り付けて、スクリプトで採点するが、AIオーケストレーターより先のRAGアーキテクチャは自由なので、各社の腕の見せ所だ。一言でRAGと言っても、さまざまな形式のデータのインテグレーション、最適なチャンキング、インデックス化、プロンプト生成、そしてUIでのデータ可視化まで、いくつもチューニングポイントがある。加えて今回はエージェントの設計も必要になるので、1回目・2回目よりも複雑性は大きく増している。

　また、今回新たに提供されたのが進捗確認用の評価と最高スコアを表示するためのLeaderboard。CSVファイルをアップロードすれば、その場で評価スクリプトを回して、チームごとの最大スコアが表示される。今回は1週間の開発だったため、進捗確認にも利用されていたという。

プレゼン会場の様子

　RAGの精度評価は新たにGPT-4oを採用。正答の類似性に加えて、流暢さや根拠の有無などAzure AI Studioに搭載されている評価メトリクスに準拠した形で評価が行なわれる。スコアは最大40点。LeadersboardでのRAGの精度評価はこのうち最大25点なのでもちろん大きいが、工夫した点やアイデア、カスタマーストーリー、エンタープライズグレード、Copilot要素なども審査員によって採点され、最終スコアが決まる。

　プレゼンは10分で、持ち時間を超えると強制終了というルールとなっている。各セッションの後には審査員からコメントが行なわれるという形式。こうした花ケ﨑氏の説明の後、いよいよ本編となるプレゼンがスタートした。

前へ 1 2 3 4 5 6 7 次へ