このページの本文へ

図表を含む設計書・提案書などの複雑で多様な資料を読解可能に 1,000億パラメータのマルチモーダルLLM開発を開始

ストックマーク
2024年10月10日

  • この記事をはてなブックマークに追加
  • 本文印刷

ストックマーク
~ポスト5G情報通信システムの開発(助成)に採択~

 ストックマーク株式会社(本社:東京都港区、社長:林 達、以下:ストックマーク)は、国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)の「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発(助成)」に係る公募に採択されました。





事業概要
 本開発事業では、テキストデータに加え、ホワイトカラー業務で頻繁に使用されている、図表・概念図などの様々な形式かつ、複雑で創造性の高いドキュメントをマルチモーダル※1に読解可能な、ビジネス領域に特化した1,000億パラメータ規模の生成AI基盤モデル開発をフルスクラッチ※2で行います。

 なお、マルチモーダルで読解可能なことに加え、ハルシネーション※3を抑止した回答を可能にすることで、ビジネス領域において利便性・信頼性を兼ね備えたモデルの開発を目指します。

 ホワイトカラー業務のうち、65%もの時間が文章を活用した情報収集や資料作成に充てられており※4、生産性向上を実現する上で、様々な形式のドキュメントを人が読み取るのと同様に理解できる基盤モデルへの期待は日に日に高まっております。一方で、現在公開されている多くの基盤モデルでは、ハルシネーションやドキュメントの複雑性から、ビジネス現場においては不正確かつ信頼性に欠けた出力をしてしまい、限定的な活用に留まっています。

 当社では、基盤モデルの開発ノウハウに加え、多くのホワイトカラーが働くエンタープライズ企業300社からのフィードバックを得て、7年間蓄積してきたビジネスデータとデータクリーニング技術、構造化技術を活用することにより、ビジネス現場でも信頼できる基盤モデルを開発してまいります。

 本事業の開発期間は、約6か月間を想定しており「基盤モデルの事前学習の事前検証」、「基盤モデルの事前学習」、「マルチモーダル学習(ドキュメント読解基盤モデルの構築)」を目指しております。

※1:テキスト・音声・画像・動画など、複数の種類のデータを一度に処理可能な深層学習の一種
※2:開発手法の1つでもあり、システムを作る際に、既存のモデルを用いずにゼロから組み上げる開発手法
※3:人工知能が学習したデータからは正当化できないはずの回答を堂々とする現象
※4:IDCの調査(Bridging the information Worker Productivity Gap in Western Europe: New Challenges and Opportunities for IT, IDC)によると、ホワイトカラーの作業時間の大部分は、(a)情報収集、(b)資料検索、(c)資料作成に費やされており、(a)~(c)の作業の合計で平均一人当たり週26時間・労働時間の約65%が費やされている

 また当該事業は、国内の生成AIの開発力強化を目的として経済産業省が実施するGENIACプロジェクトと連携して実施されているものであり、国内事業者に対して生成AIの開発に必要な計算資源の確保と利用料補助を実施するものです。

開発研究の背景
 基盤モデルの活用がビジネス現場おいて限定的となってしまっているのは、基盤モデル特有のハルシネーションという技術課題が解決されておらず、結果として出力が不正確であり信頼性に欠けているとユーザが感じていることが大きな要因です。

 昨今、ハルシネーション抑止に向けた技術的な取組みは盛んになっており一定の改善が見受けられる一方で、ビジネス現場で活用されるドキュメントは、テキストに限らず、図表や概念図など複雑で創造性の高いドキュメントで管理されています。ハルシネーションの更なる抑止に向けては、複雑で創造性の高いビジネスドキュメントからも正確な回答を行える、より高度なマルチモーダル基盤モデルの必要性が高まっています。

 本事業での開発により、研究開発者が作成した「技術設計書」や、営業部門などで作成した「提案書・企画書」などのビジネスドキュメントで用いられる、図表や概念図が含まれた複雑なドキュメントの読解データセット(Stockmark Business Document Questions)を定義・構築し、当該データセットで、現在ビジネス現場で活用されている汎用モデルを超える読解性能となるモデル開発を目指します。
 また、Stockmark Business Document Questionsのほか、一般的な図表理解のベンチマークでも汎用モデル以上の性能を目指します。

 本事業での学習を収束させ、ハルシネーションを大幅に抑止することができれば、ビジネスドメインという高い理解力・読解力が求められる知識領域においても、基盤モデルが有効であるという画期的な事実の証明が可能になります。基盤モデルの活用が停滞しているビジネス現場/産業界全般における基盤モデルの活用を大幅に底上げできると考えております。

当社の生成AI社会実装に関する実績
 当社はこれまで、国内におけるLLM開発のトップランナーとして日本語及びビジネス領域に強い純国産LLMの開発研究を行ってまいりました。

 2023年8月に14億パラメータの日本語LLMを公開、同年10月には130億パラメータの日本語LLM「Stockmark-LLM-13b」を公開、2024年5月には国内最大級となる1,000億パラメータLLM「Stockmark-LLM-100b※5」を公開し、当社のプロダクトへの実装や、パナソニックHD様との「Panasonic-LLM-100b」の共同開発、日本ガイシ様における新規用途探索の高精度・高速化を目的とした実証実験など、豊富な生成AIの社会実装経験を保有しています。
※5:国立研究開発法人新エネルギー・産業技術総合開発機構(以下:NEDO)の事業である、「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」において開発され、2024年5月に公開したLLMです。当該事業は、国内の生成AIの開発力強化を目的として経済産業省が実施するGENIACプロジェクトと連携して実施されているものであり、国内事業者に対して生成AIの開発に必要な計算資源の確保と利用料補助を実施するものです。


【参考】
パナソニックHDとストックマーク、国内最大規模(1000億パラメータ)の独自日本語LLM「Panasonic-LLM-100b」開発で協業
URL:https://stockmark.co.jp/news/20240702

日本ガイシ株式会社 新規用途探索の高精度化・高速化を目的に
ストックマークの独自LLMを活用した実証実験を開始
URL:https://stockmark.co.jp/news/20240208


取締役CTO 有馬 幸介のコメント



 実用レベルのマルチモーダルAIの実現によって、ホワイトカラーの資料作成などのドキュメントワークを中心として、人々の働き方が根幹からアップデートされると考えております。特に日本は歴史ある経済大国として企業内に大量のドキュメントの蓄積があります。
 当該ドキュメント群を実用レベルに扱えるAIの社会実装を押し進めることで、日本経済の更なる前進に貢献できればと考えております。

ストックマーク株式会社について
 ストックマーク株式会社は「価値創造の仕組みを再発明し、人類を前進させる」をミッションに掲げ、最先端の生成AI技術を活用し、多くの企業の企業変革を支援しています。
 社内外の情報をワンストップで検索できる「Anews」及び、あらゆるデータを構造化し企業の資産に変える「SAT(Stockmark A Technology)」を運営しています。さらに、企業特化生成AIの開発や、独自システムの構築も支援しています。

会社名 :ストックマーク株式会社
所在地 :東京都港区南青山一丁目12番3号 LIFORK MINAMI AOYAMA S209
設立  :2016年11月15日
代表者 :代表取締役CEO 林 達
事業内容:自然言語処理を活用した、
     事業機会の探索と意思決定の支援を行うサービスの開発・運営
URL  :https://stockmark.co.jp/

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

1
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 タブレットPC 第7世代 Core m3 メモリ4GB SSD128GB Windows11 Office2019搭載 1920×1280 高精細液晶 LTE対応 無線LAN タッチペン付属 カメラ搭載 初期設定済み
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 タブレットPC 第7世代 Core m3 メモリ4GB SSD128GB Windows11 Office2019搭載 1920×1280 高精細液晶 LTE対応 無線LAN タッチペン付属 カメラ搭載 初期設定済み
¥9,999
2
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥35,129
3
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - シルバー
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - シルバー
¥177,333
4
【整備済み品】ノートパソコン N E C Versapro-VKシリーズ core i3 第8世代/ノートPC/Webカメラ内蔵/Windows11/MS & Office2019/メモリ4GB/SSD128GB/DVD/15.6インチ/HDMI/Bluetooth/wifi/マウス付属/初期設定不要/初心者向け(i3-8/SSD 128GB)
【整備済み品】ノートパソコン N E C Versapro-VKシリーズ core i3 第8世代/ノートPC/Webカメラ内蔵/Windows11/MS & Office2019/メモリ4GB/SSD128GB/DVD/15.6インチ/HDMI/Bluetooth/wifi/マウス付属/初期設定不要/初心者向け(i3-8/SSD 128GB)
¥14,850
5
【整備済み品】NEC ノートパソコン VKM16/VKT16 15.6型 第8世代Core i5-8265U(最大動作3.9GHz) /Windows11 Pro/MS Office2019/WIFI内蔵/Webカメラ/DVD-ROM/Bluetooth/HDMI/Type-C(テンキー非搭載/Corei5-8265U, メモリ16GB,SSD512GB)
【整備済み品】NEC ノートパソコン VKM16/VKT16 15.6型 第8世代Core i5-8265U(最大動作3.9GHz) /Windows11 Pro/MS Office2019/WIFI内蔵/Webカメラ/DVD-ROM/Bluetooth/HDMI/Type-C(テンキー非搭載/Corei5-8265U, メモリ16GB,SSD512GB)
¥34,800

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,284
2
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,080
3
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
4
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
5
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,645
6
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
7
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
¥743
8
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ホワイト T-K6A-2630WH
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ホワイト T-K6A-2630WH
¥1,690
9
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
¥1,040
10
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,599

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン