このページの本文へ

学習データもすべて公開、GPT-3.5を超える日本語性能を達成

透明性が大切 NIIが“完全オープン”で世界最大級のLLMを一般公開

2024年12月25日 17時00分更新

文● 福澤陽介/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 国立情報学研究所 (NII) の大規模言語モデル研究開発センター(LLMC)は、2024年12月24日、約1720億パラメータのLLM「llm-jp-3-172b-instruct3」を一般公開した。「学習データまで含めすべてオープンなモデルとしては世界最大規模」としている。

●llm-jp-3-172b-instruct3(Hugging Faceにて公開)
https://huggingface.co/llm-jp/llm-jp-3-172b-instruct3

 llm-jp-3-172b-instruct3は、約2.1兆トークンの学習データを用いてフルスクラッチで学習されており、学習データまで含めすべてオープンなモデルとしては世界最大規模だという。日本語理解能力を測るベンチマーク「llm-jp-eval」などでは、OpenAIのGPT-3.5を超える日本語性能を達成している。

 計算資源としては、経済産業省・NEDOのGENIACプロジェクトの支援によるクラウド計算資源(グーグル・クラウド・ジャパン)を利用して、約0.4兆トークンまで事前学習。その後、文部科学省の補助金により調達したクラウド計算資源(さくらインターネット)を利用して、約2.1兆トークンまでの事前学習及びチューニングを実施している。

 事前学習には、WebアーカイブCommon Crawl(CC)から抽出・フィルタリングした日本語テキストや、国立国会図書館インターネット資料収集保存事業(WARP)で収集されたWebサイトを基にクロールしたデータ、日本語Wikipedia、KAKEN(科学研究費助成事業データベース)における各研究課題の概要テキストなどが用いられている。その他にも、英語や他言語、プログラムコードなどが学習に利用された。

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    TECH

    フォーティネットの「SSL-VPN廃止」 IPsec移行と脱VPN、それぞれの注意点を総ざらい

  2. 2位

    ソフトウェア・仮想化

    「SaaSの死」の影響は感じない ― グローバル以上に好調な日本市場、ServiceNow鈴木社長が語る

  3. 3位

    ネットワーク

    ネットワークとセキュリティの統合に強み 通信事業者系ZTNA/SASEサービス3選

  4. 4位

    TECH

    「蟻の一穴」となるリモートアクセスVPNの脆弱性 ZTNA/SASEはなぜ必要か?

  5. 5位

    デジタル

    海外駐在員の負担を軽減し、ワンチームへ kintoneは言語と文化の壁を越える「翻訳の魔法」

  6. 6位

    ビジネス

    医療費5兆円抑制につながる“国産ヘルスケア基盤”構築へ SMBC×富士通×ソフトバンクが業務連携

  7. 7位

    エンタープライズ

    基盤も古いし、コードも酷い! そんなクエストにGitHub Copilotで試行錯誤しまくった「みんな」こそ最高

  8. 8位

    サーバー・ストレージ

    「30%ではなく“30倍”の生産性向上へ」 AIエージェント時代に求められるIT基盤、マイケル・デル氏が語る

  9. 9位

    ビジネス・開発

    いますぐ捨てたいITサービスは? AI推しにそろそろ飽きてません? 情シスさんのホンネを「ゆるっとナイト」で聞いた

  10. 10位

    ITトピック

    AIセキュリティで必要な6つの対策/20代の半数が「検索エンジンを使わない」/生成AIツールはエンジニアの「業務インフラ」へ、ほか

集計期間:
2026年05月19日~2026年05月25日
  • 角川アスキー総合研究所