このページの本文へ

Stability AI、日本語に特化した汎用言語モデル「Japanese StableLM Alpha」を発表

2023年08月10日 17時30分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 Stability AI Japanは8月10日、70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」および、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開した。

7500億トークンのテキストデータで学習

Japanese StableLM Base Alpha 7Bの回答例

・Japanese StableLM Base Alpha 7B:汎用言語モデル

 「Japanese StableLM Base Alpha 7B」は、ウェブを中心とした主に日本語と英語の大規模なテキストデータ(内2%はソースコード)のべ7500億トークンを用いてテキスト生成を学習したモデル。

 学習データには、公開されているデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チームおよびStable Community Japanのメンバーの協力のもとで作成したデータが含まれているという。

 データ中には、小説生成AI「AIのべりすと」の開発元であるBit192 Labsが提供した約150GBの独自データセットも含まれていることが明らかにされている。

・Japanese StableLM Instruct Alpha 7B:指示応答言語モデル

 「Japanese StableLM Instruct Alpha 7B」は上記のモデルに追加学習をし、ユーザーの指示に反応できるようにしたモデル。追加学習にはSupervised Fine-tuning(SFT:教師あり微調整)を採用しており、複数のオープンデータセットを利用している。

 両モデルはどちらもHugging Face Hubで公開されており、Japanese StableLM Base Alpha 7Bは商用利用可能なApache License 2.0ライセンスでの公開、Japanese StableLM Instruct Alpha 7Bは研究目的での利用に限定した公開となる。

日本語チャットボットでは最高性能

 EleutherAIのlm-evaluation-harnessをベースに、日本語言語理解ベンチマーク(JGLUE)のタスクを中心として、文章分類、文ペア分類、質問応答、文章要約などの合計8タスクで評価をしたところ、Japanese StableLM Instruct Alpha 7Bのスコアは54.71を達成し、他のモデルを大きく引き離している。

 Stability AI Japanは今年の2月に「日本語に特化したチャットボット、Stable Chat(日本語版)を開発する」旨のツイートをしている。

 Japanese StableLM Alphaを使用した日本語特化チャットボットの登場も近そうだ。

カテゴリートップへ

ピックアップ