テキスト専用モデルも論理的理解力を強化

業務DXのラストマイルを埋める　純国産LLM「tsuzumi 2」にVisionモデル　機微情報の図表理解に強み

2026年05月19日 11時00分更新

文● 福澤陽介／TECH.ASCII.jp

　NTTは、2026年5月19日、同社の純国産LLM「tsuzumi 2」において、言語情報に加え文書の視覚情報も処理できる「tsuzumi 2 Visionモデル」を提供開始した。

　同モデルは、tsuzumi 2が持つ高い日本語処理能力はそのままに、「図表付きのビジネス文書」の理解力に強みを持つ。NTTグループのソブリンAIを構成する独自LLMに同モデルが加わることで、業務DXの適用範囲がさらに広がることになる。

純国産LLM「tsuzumi」の歩み

日本企業・自治体の業務DXを推進する「tsuzumi 2」

　NTTは、2023年11月に独自LLM「tsuzumi」を発表し、2024年3月の商用化を経て、2025年11月に次世代モデル「tsuzumi 2」をリリースした。同モデルは、アプリケーションからインフラまでフルスタックで展開する、NTTグループのAIポートフォリオの中核技術である。

　tsuzumi 2はリリース以降、その軽量さと日本語での高い指示遂行力が顧客から支持されているという。

　1GPUでも動作可能という従来モデルの特徴を引き継ぎ、40GBメモリ程度のGPUでも軽快に動作。さらに、もともと強みであった日本語処理能力も強化しており、その指示遂行力は、数倍以上のサイズのフラッグシップモデルにも匹敵する。

　利用形態としては、オンプレミス・プライベートクラウド環境が主となる。国内企業や自治体の多くが、業務で機微情報を扱う中で、ソブリン性を確保したDX推進に活用されている状況だ。

tsuzumi 2の日本語処理能力の評価

　一方で、こうした機微情報が記載された文書の多くが図表を伴い、目視を前提とした形式で存在する。この「業務DXのラストマイル」を埋めるために登場したのが、tsuzumi 2 Visionモデルである。

図表付きの日本語資料の理解力に強み　テキスト専用モデルも強化

　tsuzumi 2 Visionモデルは、tsuzumi 2の高い日本語処理能力に、文字や図表を理解する能力をアダプターで拡張したモデルである。図表付きの日本語ビジネス文書を対象にその強みを発揮する。

　実際に、図表付きドキュメントやスライド、グラフ・チャートの理解におけるベンチマークでは、Googleの「Gemma 3（27B）」や「Gemma 4（31B）」といった同サイズ帯のモデルはもちろん、Metaの「Llama 4 Scout（109B）やOpenAIの「GPT-5.2」といった数倍以上の大きさのモデルと比べても、遜色ない結果が得られている。

tsuzumi 2 Visionのベンチマーク

　このVisionモデルを利用することで、図表付き文書もデジタルプロセスに組み込めるようになり、業務DXの幅が広がることになる。

　例えば、社内資料の概要やレイアウトを同モデルに文章化させ、それをデータベース化することで、見た目などの記憶から過去の資料を検索できるRAGシステムが構築可能だ。他にも、紙の問診票を読み取って個人情報の登録業務を支援する医療機関のユースケースや、源泉徴収票を読み取って与信審査を支援する金融機関のユースケースなどが挙げられる。