生成AIの熱き戦いが品川でも！　GPT-4oもフル活用されたAI Challenge Day 2nd

2024年07月19日 09時00分更新

文● 大谷イビサ　編集●ASCII

提供: 日本マイクロソフト

若手の一言から2日目から追い上げたTISインテックグループ

　9社目は「夏休みの宿題で追い込まれた日々を思い出しました（笑）」と語るTISインテックグループの中村賢二氏。5人のメンバーはインテックやアグレックスなど各地域のメンバーが集まっており、普段は金融・行政などの分野で活躍するほか、トランポリンの実技に活かすためのAIによる「姿勢推定」などの研究開発を手がけている。

TISインテックグループの中村賢二氏

　初日は諸事情があり0点だったというチームだが、最終的な評価スクリプトは17.625点となった。最初は30個の質問で15.599点、2日目からはイテレーションが回るようになり、全40問で16.825点、14時に17.550点、提出直前の14時48分には「黒魔術的な追い込み」で17.625点にまでたどり着いた。アーキテクチャとしては、当初PowerAppsを使おうとしたが、諸事情でApp Serviceを利用したという。

　最初にやったのは与えられたファイルの種類の確認。どの拡張子のファイルがどれだけあるかを数え、それぞれの対応を決定した。PDFはDocument Intelligenceでテキスト化し、CSVファイルはJANコードごとにテキストファイルに分割。また、オブジェクトのいっぱい入ったOfficeファイルはunzipして、テキスト化を行なった。

　苦戦ポイントとしては、「AI Studioがうまく動作しなかった」「AI Studioでインデックスを生成するとデータが新たに作成されてしまう」「プロキシの関係で手元の評価スクリプトも、評価環境もうまく動かせなかった」などが挙げられた。参加した若手の一言のコメントから光明が見いだされ、2日目からチャンクやプロンプトの調整にまで進めたという。

　カスタマーストーリーとしては「生成AIがなかなか浸透しない旅行業界のPoCとして、社員が生成AIを手軽に体験できるRAG環境を提供する」というもの。コストを抑え、早く動くものを作り、スタッフを即戦力化できるように、試行錯誤できる環境を作るのが目的だ。「お客さまがRAGという環境を使って、メインのビジネスに注力できるよう、支援するのがSIerとしての役割」と中村氏は語る。

SIerならではのカスタマーストーリー

　審査員である日本マイクロソフトの木村氏は、「とてもお疲れだと思いますが、結果的に点数が持ち直してくれてよかった。Power Platformを検討してくれたのもうれしかったし、データを細分化して、取り込んでいこうというのも素晴らしかった。時間が足りなかったり、チーミングに時間がかかったとは想定しました。ともあれ、おつかれさまでした」とねぎらった。

課題ドリブンのコンセプトが秀逸　提案書レベルだったアビームコンサルティング

　ラストの10社目はアビームコンサルティングの來多佑亮氏。参加したのは、デジタルテクノロジービジネスユニット Artificial Intelligence Leapセクターと呼ばれる部門の5人で、普段はデータ分析や生成AIによる業務効率化や事業価値創造の支援を手がけている。LLMやRAGに関しては、Azure OpenAI Serviceリファレンスアーキテクチャ賛同プログラムでAdvanced Partner認定を受けており、自社サービスの「ABeam LLM Partner」を使った支援実績などを持っているという。

アビームコンサルティングの來多佑亮氏

　最初に発表されたのは「AIと行く世界遺産クエスト」というアプリ開発のコンセプト。これは中高生を対象に修学旅行の学びを深めるアプリで、テーマに応じた効果的な見学プランを提案する「モデルコースの提案と計画」、AIが即時に質問に回答し、学びをサポートする「見学中の疑問にAIがリアルタイム回答」、見学体験を教育的な学びに結びつける支援を行なう「体験と学びの連携」という3つの特徴を持つ。

　今回は開発対象だった質問回答機能に加え、「今回、余裕があったので」（來多氏）ということで、ルート企画機能まで実装した。これが学習テーマと生徒からのフィードバックを元に見学候補と学習ポイント、ルートまでを提案する企画アプリ。両方ともアプリの動画が披露され、デプロイ済み。質問回答機能は都道府県を選択することで、検索対象を絞るメニューまで実装されており、完成度の高さがうかがえる。

アプリ開発のコンセプトはAIと行く世界遺産クエスト

質問回答とルート企画まで実装

　開発は実際のプロセスを元に行なわれた。ステップ1では前述したカスタマーストーリーを検討し、ステップ2でPoCによる技術検証とアジャイルな改善を進め、ステップ3の本番に進むという流れだ。ステップ1においては修学旅行生が直面する課題の検討からスタートしたという。

　具体的な課題としては「観光地の歴史や文化的背景についての信頼できる情報収集の難しさ」「修学旅行中での学びが表面的になりがち」「現地での質問に迅速に回答してくれるガイド不足」などが挙げられた。これをAIアプリが担うことで、教員の準備や現地でのサポート負担の軽減、学びの質の向上、見学中に出てきた疑問の解消と深い文化理解などを実現するという。

　この段階で発表された評価スクリプトの結果は21.400点。スクリプトの点数だけ見ると、10社目の段階で2位に付けたことになる。とはいえ、初回の評価スクリプトで、すでに19.225点をたたき出しており、2.175点をチューニングで向上させたことになる。詳細を見ると、テキストに関しては各指標で5点近い結果を得られていたが、画像入力の質問では、適切な背景情報のRetrieveが難しく、「根拠有無」の評価が伸び悩んだという。

　初回評価からのチューニングに関しては、まず画像を使った質問への対応がうまくいっていないという課題があった。そのため、画像を含めた多様なデータソースに対応すべく、PowerPointやWord、PDFなどはDocument IntelligenceとOSSなどを組み合わせて精度の高い読み取りを実現。画像やCSVに関してはGPT-4oをフル活用し、質問応答に対応した。

　また、回答に必要な情報がうまく検索できていないというRAG課題に関しては、ロジックのチューニングを実施した。具体的にはユーザーの質問から仮回答を生成し、これをRetrieveすることで検索精度を高めるHyDEや質問文の文脈からAI Searchの検索結果を並べ替えるSemantic Ranker、辞書を元に文書中の同義語を検索対象に追加して精度を高めるSynonym Mapなどの技術を取り入れた。

RAGロジックのチューニング

　画像検索のロジックもチューニングを行なった。今回は画像検索で画像に紐付いているファイル名から被写体を特定し、AI Searchを行なうというロジックを用いている。ただ、誤ったファイル名で検索されると精度が下がるため、画像の類似度で条件を分岐し、類似度が低かったものはGPT-4oで画像の特徴をテキスト化するというロジックを追加した。

　その他、Azure OpenAI Serviceのコンテンツフィルターで回答が生成されていない、回答生成に2分を要し、検証効率が低いという課題もあった。ただ、残念ながらここで発表時間は時間切れ。本番実装におけるモバイル対応、セキュリティ実装、Copilot活用など数枚のスライドの説明を残したまま、プレゼンを終えた。

　日本マイクロソフトの内藤稔氏は、「僕も時間を忘れて見入っていました。『これってどこかの提案書ですか？』というくらいのレベルのものが出てきて驚愕しています。まずはユーザーをきちんと絞ったというのは正しいアプローチで、対象を絞ることでデータやアウトプットも絞れている。あと、カスタマーインターフェイスとストーリーがものすごく素晴らしい。いつ作ったんですか？というプレゼンもすごくて、そのままお客さまに持って行ける。すごすぎて語彙がなくなっているのですが、最後プレゼンの時間が足りなくなったのはご愛敬かなと。とにかく素晴らしくかった」と絶賛した。

前へ 1 2 3 4 5 6 7 次へ