このページの本文へ

RAGとマルチモーダルにチャレンジするエンジニアの祭典が戻ってきた

生成AIの熱き戦いが品川でも! GPT-4oもフル活用されたAI Challenge Day 2nd

2024年07月19日 09時00分更新

文● 大谷イビサ 編集●ASCII

提供: 日本マイクロソフト

  • この記事をはてなブックマークに追加
  • 本文印刷

ロボット+AIの世界観で未来を描いたセンシンロボティクス

 続いては最小の3名で乗り込んできたセンシンロボティクスの諸藤洋明氏。普段は社会インフラDXを実装しているメンバーで、普段からAzureを使っているという。「ロボティクス ×AI×業務・事業」をバランスよく作れるチームなので、「やったことないことを楽しもう」という意気込みで参加したという。

センシンロボティクスの諸藤洋明氏

 評価スクリプトの結果は17.300点。「テキストでは19点を超えていたのですが、マルチモーダルの10問がかなりバラエティに富んでおり、得点を挙げられなかった」と語る。カスタマーストーリーは、「多国籍なメンバーで構成されている自社の同僚やその家族に日本を紹介したいという」というものになった。

 「RAGを使って、同僚や家族に知ったかぶりでもいいので、日本のことを説明できるアプリを作ることにした」(諸藤氏)ということで、できたのが「しったか観光ガイドアプリ YO-CO-SO」。アプリ名のYO-CO-SOは「あなたも誰かのCopilot(You are a Copilot for Someone)」から由来しているとのこと。ここまでユーザーストーリーを作り込んでくる段階で、後半の発表への期待も高まる。

 設計に関しては、Document Intelligenceを前提としたドキュメント解析に注力。PDFやWordファイルをスキャンし、マークダウン形式で出力した内容を、LangChainで意味のある形に分割。検索に関しては、ハイブリッドに加え、あとからセマンテックも採用した。精度に影響したのは、検索クエリの事前生成をLLMで実施したこと。多言語、単語、ひらがななどの質問のばらつきを平準化した上で、インデックスを整えることができたという。

 諸藤氏は、「OneDrive上でつねにスコアを共有しながら、みんなでどこを上げていくのか、意識あわせできたのがとても大事だった」と振り返る。マルチモーダルでは、類似画像をベクトル検索することにしたが、この方法だと見つからない想定質問があったため、最初からAI VisionやDocument Intelligenceとの併用を検討したという。

 そして、アイデアとしてチャレンジしたのは、マルチモーダルのUIをロボットにすることだ。「イベントの案内スライドにもロボットは出てくる。RAGで検索する際に、スマホだけじゃなくて、ロボットで検索する世界観ってあるな」(諸藤氏)と考え、アプリのUIをStreamlitのならず、ロボットを前提としたROSにも実装。たとえば清水寺を案内するロボットが撮影した写真をRAGで調べ、観光客のスマホ画面やロボットの声として結果を伝えるといったアイデアがあり得るという。

マルチモーダルのUIをロボットに

 もう1つのチャレンジは、いわゆる責任あるAIの領域。「サービス提供する主体が自治体や観光施設であることを考えると、公平性や公共性が高いと考えました。このときに責任あるAIは大きい」とのことで、「Azure AI Content Safety」を回答のチェック部に実装した。「花ヶ崎氏のデータがとてもきれいな言葉でできていた(笑)」(諸藤氏)だったため、今回はセクシャル、ヘイト、バイオレントなどの表現はなかったが、現場での運用では必要な機能だと思った。

 最後、諸藤氏は「今回は、このように3人でいろいろなチャレンジできる機会をいただけて本当にありがたかった。次があれば、みなさんとディスカッションしながら、精度を上げてみたいと思った」とコメントしてくれた。

 日本マイクロソフトの花ヶ崎氏は、「『しったか観光ガイド』という、自身の環境から生まれたアイデアは一番身近だし、自分事として考えられるし、マイクロソフトが語るCopilotのコンセプトとも似ていると思った。なによりマルチモーダル×ロボットの世界観が面白かった。センシンロボティクスさんならではのアイデア。動画を見たら、ここまで来ているんだと実感できた」と感想を披露した。

・関連ブログ
GPT4-oのAzure OpenAI APIで作るRAGシステム ~AI Challenge day 第2回参加報告を兼ねて~

Dify採用でチャンキングもなし 挑戦度MAXのウルシステムズ

 4社目はウルシステムズの最上隆史氏。同社はITコンサルティングをベースに、ユーザー企業の中に入って、ユーザー企業目線でシステム開発を行なっている。今回の5人は先端技術を使ったビジネスユースケースの適用コンサルティングや開発を手がけており、過去には社内での研究情報のRAG実装や検索精度の評価、最適タスクの選択などで実績を持っているという。「技術で食っている人間ですので、技術でビジネスをグロースアップさせます」(最上氏)と鼻息も荒い。

ウルシステムズの最上隆史氏

 40問中30問という参考値の評価スクリプトは18.067点。この数値自体は昨日の13時過ぎの段階には出ていたという。アーキテクチャとしてはエンタープライズ実装を想定し、kubernetesを採用。ただ、AIオーケストレーターとしては、Prompt Flowではなく、Difyを採用。8つのコンテナをPodとして実装し、Difyで難しい機能は開発したカスタムAPIでApp Serviceを利用することにした。また、ローダー部分に関しては、Azure MLを用いながらNotebooks上でテキストをインデックス化し、メンバーと共有して、試しながら試行錯誤していったという。

 「参考値しか出なかったので、好き勝手に言う」(最上氏)とのことで、RAGの精度を高めるためにやったことを披露すると、まずは「チャンクサイズはゼロ」。「近い将来、チャンキングが要らないという世界がやってくる」と最上氏は語る。ただ、今回に関しては、検証用のCSVを作るのがとても大変だったという。また、「画像のエンベディングはしない」(最上氏)ということで、画像に写っている被写体をLLMに説明させることで、出力はテキストだけで済み、実装はシンプルになった。さらに質問からユースケースを判断し、最適な推論ロジックを動的に選択できるようにようにした。

 一方、学んだのは改めて「kubernetesは難しくない」ということ、そしてPrompt FlowやDifyのようなオーケストレーションツールはビジネス領域では武器として必要になるという点。また、今回のようなイベントには「準備が必要だった」というのも学び。「前日の23時に参加者が確定し、そこからみんなでディスカッションとなった」と語る。

 最後、最上氏はDifyを用いたワークフローを披露した。1つ目では与えられた質問を分類し、画像の有無などを判断した後、最終的には複数の情報を集めてGPT-4oで回答を生成させている。2つ目のフローでは、場所、人、もの、絵画など被写体に応じたワークフローをそれぞれ用意してくれるというものだった。

Difyのワークフロー

 日本マイクロソフトの内藤稔氏は、「時間制約の中でここまでアウトプットしてくれたのはすごい。AKSは簡単と言い切れるのもさすがウルシステムズさんだなと思うし、Difyのような独自実装も技術で食っていると冒頭でお話ししていただけあってすごかった。あと半日あれば結果は変わっていたかもしれない」と語った。

・関連ブログ
「ASCII×Microsoft 'AI Challenge Day Tokyo' で2日間のRAGシステム開発!」
 

カテゴリートップへ

  • 角川アスキー総合研究所
  • アスキーカード