このページの本文へ

RAGとマルチモーダルにチャレンジするエンジニアの祭典が戻ってきた

生成AIの熱き戦いが品川でも! GPT-4oもフル活用されたAI Challenge Day 2nd

2024年07月19日 09時00分更新

文● 大谷イビサ 編集●ASCII

提供: 日本マイクロソフト

  • この記事をはてなブックマークに追加
  • 本文印刷

データセットの愛は伝わるか?10社のプレゼンがいよいよ開始 

 2日目の朝、日本マイクロソフトのオフィスに再度現れたチームメンバーたちは14時の締め切りに向けて、開発やプレゼン作りを進める。昼過ぎの締め切りには10チーム遅れることなく、無事成果物であるPowerPointを提出。プレゼン大会も定刻に始まった。



 

 まずは審査員の紹介からスタート。審査委員長の角川アスキー総合研究所の大谷イビサは、「4月に開催されたAI Challenge Dayが品川に戻ってきました。知識ではマルチモーダルやRAGを知っていると思いますが、この2日間、実際に手を動かしたことで、苦労したこと、楽しかったこと、学んだことがいっぱいあったと思います。すでに成果物は提供したので、あとは出し切るようがんばってください。私たちも楽しみにしています」と挨拶した。

 審査員の一人であり、今回のコンテストを出題した花ヶ崎氏は、「RAGやっぱり楽しいなと。毎日RAGのことしか考えてない。その想いがみなさまへのデータセットに伝わったのではないかと思います。生成AIが発展していくのに重要な技術なので、みなさんと切磋琢磨していきたいです」とエールを送る。

 その上で、今回の開発概要について、「アシスタントに正確に回答してもらうためにはRAGが必要……と話していたのは2ヶ月前。でも、この2ヶ月でOpenAIを含めた技術革新が進んでしまい、『モデルだけでうまくいっちゃうじゃん」ということが出てきました。ということで、私も夜な夜な新しいデータセットを作り、今回は『仮想遺産』というものが増えています。そのため、モデルだけでは回答できなくなっています」と説明。質問回答のみならず、マルチモーダルの質問も追加され、2ヶ月の技術革新にあわせて、難易度が上がっている点をアピールした。

初挑戦のPrompt Flowで手応えを感じたAZPower

 トップバッターはAZPowerの山田慎一郎氏。「職人気質」を謳う同社のチームは5人で、普段の業務は受託開発と自社サービスの構築だ。Azure OpenAI Serviceを用いたPaaSの開発も手がけたことがあるという。「仕事を始めると寡黙になり、ひたすたコードを書くようなチーム」だという。

AZPowerの山田慎一郎氏

 評価スクリプトの結果は17.452点。「思いのほか伸びなかった」(山田氏)という理由は、マルチモーダルの実装が時間切れだったこと。アーキテクチャとしては、フロントにNode.jsで実装したアプリをAzure Web Appにホストし、Prompt Flowを介してAI SearchとAzure OpenAI Serviceに問い合わせる構成にした。Prompt Flowに関してはほぼ初挑戦だったということで、調査と利用に時間をとったことがチャレンジでもあり、得点が伸びなかった要因だったという。

 RAGの構築に関しては、埋め込みモデルによるベクトル化、Document Intelligenceを用いた非構造化ファイルからのテキスト抽出、ハイブリッドとセマンテックを用いた検索など「いわゆるお作法」に近い前処理と検索を実現した。とはいえ、フォントが混在していて、なおかつスキャンされていたといったデータの処理に手こずったという。

 マルチモーダルに関しては、前述の通り、途中までの実装となった。「画像が含まれている場合の検索クエリをどのように作るか?」ということで、画像をいったんGPT-4oに読み込ませて、もらった説明をベクトル化して、検索クエリに流すというアイデアもあったが、実装にまでは至らなかったという。

 ほぼ初トライだったPrompt Flowに関しては、「マルチモーダルの入力以外はおおむね実装できた」「プロトタイプ開発はノーコード、ローコードでいける」「RAGの検索結果を途中で出力できるのが素晴らしい」と高く評価し、今回の収穫になったと感想を述べた。UI/UXに関しては、アプリはホストしたものの、バックエンドとのつなぎ込みが間に合わず、観光サイトや旅行サイトのアシスタントを想定した画面が披露された。

Prompt Flowやるやん

 審査員のASCII大谷は、「審査員の中で唯一マイクロソフトの人ではないのですが、マイクロソフトの人の代わりに『Prompt Flowを使ってくれてありがとう』と言っておきます(笑)。勝つこともそうですが、学びとってやろうという意気込みが感じられて、頼もしいなと思いました」と感想を語った。

SaaS企業ならではのユーザーストーリーやUIが魅力だったPHONE APPLI

 続いては緊張で全然寝られなかったというPHONE APPLIの福田修也氏。PHONE APPLIは「人とのつながり」を高め、組織を強くするコミュニケーションポータル「PHONE APPLI PEOPLE」を提供するSaaSメーカー。今回はサービス開発メンバー5名で参加し、知識や経験を持ち帰る意気込みだという。

PHONE APPLIの福田修也氏

 評価スクリプトの結果は16.000点だった。フロントはチャレンジとしてChainlitを採用。あとはApp ServiceからAI Search、GPT-4oに検索をかけるオーソドックスな構成。ドキュメントはDocument Intelligence、画像はComputer Visionを用いてテキスト化・ベクトル化を行なっている。ここらへんも他社と概ね同じだ。

 SaaSの会社だけに、ユーザーストーリーやUIもしっかりしていた。ペルソナは修学旅行の中・高学生で、初めての場所で日本の世界遺産がわからないという課題に関して、世界遺産の情報や関連するお土産などの情報をアプリから得られるというもの。「トラベルアシスタント」と名付けられたアプリのUIも披露された。

さすがSaaS会社のアプリUI

 RAG構築の工夫としては、インデックスと画像用とテキスト用で分けたことが挙げられる。マルチモーダルの場合は、画像用インデックスを使ってベクトル検索を行ない、画像のキャプションを取得し、質問をリフレーズしてから、テキスト用のインデックスを使って再度ベクトル検索する工夫を施している。

 また、エイリアスを使うことでオーケストレーション側の変更なしで、インデックスの更新が容易に行なえるようにした。GPT-4oもフル活用。チャンク分析やDocument Intelligenceの表記揺れ、ノイズの校正、画像のキャプション生成などはGPT-4oに任せた。さらにコンテンツとは別にファイル名でカテゴリフィールドを生成した。

 改善点としては、要約データからキーワードとなるカテゴリを生成したり、チャンク戦略の比較、GPT-4oによるOCR、検索手法の選択なども必要になると説明した。会話履歴を追加することで、より使い勝手を向上できるというアイデアも披露された。改善点もいっぱいあり、クオリティを向上させる余地は大きかったが 、「実際に動いたときはめちゃくちゃうれしかった」(福田氏)とのこと。また、「LangChainとChainlitでUIを早急に実装できたため、RAGに集中できたのもよかった」(福田氏)と感想を語った。

 パートナーによるAIの組み込みを推進している日本マイクロソフトの清水豊氏は、「新しいGPT-4oを楽しんで使っていただいたことがプレゼンからも伝わってきたし、LangChainのような効率化ツールを使っていくことも、開発効率やAIの練度を高めていくのにすごくいいチャレンジだなと思いました」とエールを送った。

カテゴリートップへ

  • 角川アスキー総合研究所
  • アスキーカード