このページの本文へ

学習データもすべて公開、GPT-3.5を超える日本語性能を達成

透明性が大切 NIIが“完全オープン”で世界最大級のLLMを一般公開

2024年12月25日 17時00分更新

文● 福澤陽介/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 国立情報学研究所 (NII) の大規模言語モデル研究開発センター(LLMC)は、2024年12月24日、約1720億パラメータのLLM「llm-jp-3-172b-instruct3」を一般公開した。「学習データまで含めすべてオープンなモデルとしては世界最大規模」としている。

●llm-jp-3-172b-instruct3(Hugging Faceにて公開)
https://huggingface.co/llm-jp/llm-jp-3-172b-instruct3

 llm-jp-3-172b-instruct3は、約2.1兆トークンの学習データを用いてフルスクラッチで学習されており、学習データまで含めすべてオープンなモデルとしては世界最大規模だという。日本語理解能力を測るベンチマーク「llm-jp-eval」などでは、OpenAIのGPT-3.5を超える日本語性能を達成している。

 計算資源としては、経済産業省・NEDOのGENIACプロジェクトの支援によるクラウド計算資源(グーグル・クラウド・ジャパン)を利用して、約0.4兆トークンまで事前学習。その後、文部科学省の補助金により調達したクラウド計算資源(さくらインターネット)を利用して、約2.1兆トークンまでの事前学習及びチューニングを実施している。

 事前学習には、WebアーカイブCommon Crawl(CC)から抽出・フィルタリングした日本語テキストや、国立国会図書館インターネット資料収集保存事業(WARP)で収集されたWebサイトを基にクロールしたデータ、日本語Wikipedia、KAKEN(科学研究費助成事業データベース)における各研究課題の概要テキストなどが用いられている。その他にも、英語や他言語、プログラムコードなどが学習に利用された。

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    TECH

    訓練だとわかっていても「緊張で脇汗をかいた」 LINEヤフー、初のランサムウェア訓練からの学び

  2. 2位

    ITトピック

    若手が言わない“本音の退職理由”上位は/「データ停止は景気後退よりも企業の脅威」6割/クライアントに告げずAI活用するフリーランス、ほか

  3. 3位

    ビジネス・開発

    最悪のシナリオは「フィジカルAI」による基幹産業の衰退 日本の勝ち筋は、“同期技術”と“ドメイン知識”

  4. 4位

    Team Leaders

    ファイル名が命名規則に合っているかの自動チェック、Power Automateのフローで実現しよう

  5. 5位

    TECH

    糖尿病超早期を採血なしで検出、予防へ! 代謝や臓器のつながりに着目した予防法開発

  6. 6位

    データセンター

    液冷技術の最先端が集うイノベーションラボ「DRIL」、印西のデータセンターに現わる

  7. 7位

    ビジネス

    廃校がAIの心臓部に!? 地方の遊休施設を「AIデータセンター」に生まれ変わらせるハイレゾの挑戦がアツいぞ

  8. 8位

    TECH

    “GPUなし”ノートPCで動くLLMで、ローカルAIエージェントを自作する

  9. 9位

    Team Leaders

    バックオフィス業務もAIに“丸投げ” マネーフォワードが「Cowork」機能を2026年7月に投入へ

  10. 10位

    TECH

    合成ゴムが及ばない天然ゴムの高性能のメカニズムを、現象発見から100年後に解明

集計期間:
2026年04月09日~2026年04月15日
  • 角川アスキー総合研究所