日本マイクロソフトのAIパートナー10社が神戸に集合　RAGとマルチモーダルに挑む

2024年05月21日 09時00分更新

文● 大谷イビサ　編集●ASCII

提供: 日本マイクロソフト

10社がいよいよ成果発表！　スクリプト結果と入魂プレゼンでトップを狙え

　翌日も開発は朝からスタート。昨日に比べると、若干お疲れのメンバーが続々と集まり、開発の続きを急ピッチで進める。YouTubeの配信を手がける業者の方々やマイクロソフトの関係者も次々と会場に集まり、午後からのイベントの準備も着々と行なわれる。

すっかり晴れた神戸　窓の外には美しい港の風景

　昼前にはスクリプトの実行状況も次々と連絡され、運営側も安堵の空気が流れる。13時のプレゼンテーション提出もどうやら間に合った模様。14時からはいよいよイベント開始ということで、大部屋にみんなで集まり、花ヶ崎氏から改めてお題が説明されたあと、各社のプレゼンがスタートした。

・Tools AgentでRAGの手法を選べるようにしたアバナード

　トップバッターはアバナードの崔氏。アクセンチュアとマイクロソフトの戦略的に設立されたシステムインテグレーターで、マイクロソフトのテクノロジーを普段からフル活用している。今回のチームは生成AI関連のプロジェクトを手がける5人で構成されているという。

トップバッターを務めたアバナードの崔氏

　評価スクリプトの結果は20.250点で、いきなり20点超えを出してきた。アーキテクチャとしてはフロントエンドにCopilot Studio、バックエンドにContainer Appsを配置。検索においては複数のRAGツールを選択できるTools Agentの概念を導入。ユーザーの質問に対して、サマリ、ソート、ベクター検索、リランク、キーワード検索、ハイブリッドなど複数のRAGのツールを選択し、組み合わせられようになっている。「たとえば、複数のキーワードで検索された場合は、サマリしている」（崔氏）とのこと。

　また、マルチモーダルに対応すべく、画像データをセグメント化・テキスト化してデータベースに格納し、検索結果とプロンプトを基にAzure OpenAI Serviceで回答を生成している。開発体制としてはDevOpsであらかじめコンフィグレーションを設定し、リアルタイムにプロンプトを更新するフィードバックループを採用し、スコアの向上を目指した。

　RAGの構築で工夫したのは、データセットのチャンキングをノード化し、サマリのインデックスとベクターDBを構築したこと。Tools Agentの動作に関しては、プロンプトエンジニアリングを強化することで、時間があればさらなる精度向上が期待できたという。

　マルチモーダルに関しては、画像内の物体をテキスト化することに苦労した。途中までは画像をすべてテキスト化し、質問はRAGで回答するという方針だったが、No.5の地図画像の質問回答に必要な物体内の位置関係をテキスト化できなかったため方針を変更。GPT-4 with Visionで画像をテキスト化させると共に、地図画像であるか判断させるプロンプトを作り、地図画像である場合は、GPT-4 with Visionで質問を回答させる方針とした。更に物体の位置関係の回答精度を高める工夫として、GPT-4 with Visionが物体内の位置関係を理解する補助情報を画像に追加するため、地図画像の場合はセグメンテーション処理を前処理として実施する方針とした。動画は披露できなかったが、回答できるところまでは作れたという。

　カスタマーストーリーとしては旅行業者のガイドをサポートするソリューションが想定されるという。インバウンドで旅行客は増えているのに、旅行業界は人手不足。一方で、一般旅行者に生成AIを使ってもらうのはハルシネーションによる誤回答の可能性があるため、不安も多い。こうした中、経験の浅い旅行ガイドをサポートし、多言語でも対応できるようにするために、こうしたアプリが役立つと説明した。

　審査員の大谷は、「技術的にはRAGのツールを選択できる点が優れていた。カスタマーストーリーも、旅行会社は人手不足だけど、生成AIのハルシネーションが心配というポイントをしてきた点が素晴らしかった。検索して古い情報にあたるより、新しい情報にアップデートできるのが生成AIの魅力」とコメントした。

・案件慣れした改善手法とツールで精度を上げた富士通

　2番手となった富士通「Team Kozuchi」は最小の若手4人で今回のAIコンテストに挑んだ。普段の業務は同社の「Kozuchi」での生成AI開発に携わっており、マイクロソフトのIgniteやバルセロナのMWCでの登壇実績もあるという。発表した富士通の仲程凜太朗氏は「RAGは日進月歩で新しい技術が現れる業界なので、マイクロソフトのPrompt Flowなどを習得して、業務に活かしたいと思い、参加しました」と語る。

富士通の仲程凜太朗氏

　そもそもKozuchiとは、ユーザーの求めるAIを実現するためのサービスプラットフォームの名称で、対話型の生成AIやAutoMLのほか、研究所が独自開発したハルシネーションやフィッシングURLのチェックといった機能を持つ。Azure OpenAI Serviceの出始めから、ユーザーにはセキュアなサンドボックス環境を提供しており、これまでの相談は250～300件、商談PoCは35件と着々と実績を重ねている。設計書のレビューの自動化など、業務に役立つAPIサービスを提供する予定だ。

　評価スクリプト結果は18.700点。アーキテクチャとしては、検索のベクターストアにAzure AI Searchを用い、質問と検索結果を合わせてGPT-4で回答を生成するというオードドックスな構成。ただし、アプリはStreamlitで作成。画像の入力がある場合は、GPT-4 with Visionを用いて、文字列に変換している。

　データごとにベクターストアの作成方法を変えており、CSVファイルに関しては、中にあるWikipediaのURLからデータをAzure AI Searchに読み込ませている。「Azure AI Searchは意外と簡単にデータからモデルが生成できる。普段の業務でも利用できると感じた」（仲程氏）。また、PDFやWord、PPTXなどのファイルはAzure AI Document Intelligenceでデータを抽出し、テキストファイルもGPT-4で自動成形している。

　質問文をGPT-4でリフレーズしているのも特徴。「清水寺電車アクセス」や「きよみず寺は応仁の乱のときどうなりましたか？」などの質問は、より回答しやすいように改善を施している。こうした改善も、データの調査分析をした後に方針を立てた結果とのこと。評価スクリプトも当初は13点台だったので、改善のかいがあったという。

　最後はこうした手間が活かされた質疑応答のFAQアプリとインバウンドの観光客が使えるカスタマーシナリオも披露。さらにエンタープライズグレードも意識しており、Azure OpenAI Serviceのエンドポイントを利用したことで、スケーラブル・セキュアな環境で提供できるとのこと。ただ、Prompt Flowで作成したエンドポイント、ファイルの前処理とベクターストアへの登録を行なえるツールのプラグイン化までは時間が足りなかったという。

　審査員の日本マイクロソフト吉田雄哉氏は、「リフレーズや使われているツールの選定などは、生成AIの案件を普段からやっている方々の選択だと思いました。とても現実的な選択ですし、やっている途中で改善点が見られたということで、いい活動だったのではないかと思います」とコメントした。