NTT、LLMで視覚情報も含めて文書を理解する技術

2024年04月16日 06時54分更新

文● MIT Technology Review Japan

NTTは、大規模言語モデル（LLM）によって、視覚情報も含めて文書を理解する「視覚読解技術」を実現。同社が研究開発している大規模言語モデル「ツヅミ（tsuzumi）」のアダプタ技術として採用・導入したことを明らかにした。

NTTは、大規模言語モデル（LLM）によって、視覚情報も含めて文書を理解する「視覚読解技術」を実現。同社が研究開発している大規模言語モデル「ツヅミ（tsuzumi）」のアダプタ技術として採用・導入したことを明らかにした。我々が扱う文書の多くは、テキスト以外に、アイコンや図表、グラフなどの視覚要素を含んでおり、多様な種類・形式が存在する。NTTと東北大学の共同研究チームは今回、文書を画像として捉えて、文書中の文字とその位置情報、画像の特徴を定量的に表現した画像情報、指示テキストを、同一空間上にマッピングする技術を開発。文書画像のマルチモーダルな特徴を、大規模言語モデルにとって解釈しやすい情報として獲得できるようにした。続いて、文書画像を知識源として、質問応答や情報抽出、文書分類といった12種類の視覚読解タスクを、ヒトの指示を基に遂行するデータセットを構築。大規模言語モデルが、文書の内容を視覚と言語を融合して理解できるようにした。その結果、未学習のタスクにおいても、目的タスクで学習をした教師あり学習モデルやGPT-4（テキスト入力のみ）、画像を理解できる大規模言語モデルである「LLaVA」に匹敵または凌駕する高性能を達成できたという。研究内容は、2024年2月20～27日にカナダ・バンクーバーで開催された「第38回人工知能に関するAAAI年次会議（The 38th Annual AAAI Conference on Artificial Intelligence：AAAI2024）において発表された。

（中條）

【この記事をMITテクノロジーレビューで読む】

ツイートする

カテゴリートップへ

ASCII倶楽部