Stability AI、日本語に特化した汎用言語モデル「Japanese StableLM Alpha」を発表

2023年08月10日 17時30分更新

文● 田口和裕

　Stability AI Japanは8月10日、70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」および、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開した。

7500億トークンのテキストデータで学習

Japanese StableLM Base Alpha 7Bの回答例

・Japanese StableLM Base Alpha 7B：汎用言語モデル

　「Japanese StableLM Base Alpha 7B」は、ウェブを中心とした主に日本語と英語の大規模なテキストデータ（内2％はソースコード）のべ7500億トークンを用いてテキスト生成を学習したモデル。

　学習データには、公開されているデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チームおよびStable Community Japanのメンバーの協力のもとで作成したデータが含まれているという。

本日公開されたStability AI Japanの日本語7Bモデル
「Japanese StableLM Alpha」に
当社から約150GBの独自データセットを提供しました。

今後、国内のオープンソースAIの発展に向けて、Bit192からも様々な取り組みを行っていきます。https://t.co/2Mpsiw3f6b
— Bit192 Labs 【AIのべりすと / Tone Sphere】 (@_bit192) August 10, 2023

　データ中には、小説生成AI「AIのべりすと」の開発元であるBit192 Labsが提供した約150GBの独自データセットも含まれていることが明らかにされている。

・Japanese StableLM Instruct Alpha 7B：指示応答言語モデル

　「Japanese StableLM Instruct Alpha 7B」は上記のモデルに追加学習をし、ユーザーの指示に反応できるようにしたモデル。追加学習にはSupervised Fine-tuning（SFT：教師あり微調整）を採用しており、複数のオープンデータセットを利用している。

　両モデルはどちらもHugging Face Hubで公開されており、Japanese StableLM Base Alpha 7Bは商用利用可能なApache License 2.0ライセンスでの公開、Japanese StableLM Instruct Alpha 7Bは研究目的での利用に限定した公開となる。

日本語チャットボットでは最高性能

　EleutherAIのlm-evaluation-harnessをベースに、日本語言語理解ベンチマーク（JGLUE）のタスクを中心として、文章分類、文ペア分類、質問応答、文章要約などの合計8タスクで評価をしたところ、Japanese StableLM Instruct Alpha 7Bのスコアは54.71を達成し、他のモデルを大きく引き離している。

日本語に特化した、今までないチャットボット「Stable Chat(日本語版)」を開発します！
世界トップクラスの技術、大規模GPUクラスター、オープンコミュニティの力など… 私たちの強みを生かした透明性の高い最高の大規模言語モデル(LLM)を構築します。

1/2
— Stability AI 日本公式 (@StabilityAI_JP) February 20, 2023