Stability AIは5月9日、日本語大規模言語モデル「Japanese Stable LM 2 1.6B(JSLM2 1.6B)」をリリースした。モデルサイズを16億パラメータと軽量化することで必要なハードウェアを小規模に抑えることが可能だという。
スピードと性能を両立した軽量モデル
🎉日本語特化の言語モデル「Japanese Stable LM 2 1.6B」をリリースしました🎉
— Stability AI Japan (@StabilityAI_JP) May 9, 2024
Japanese Stable LM 2 1.6B(JSLM2 1.6B)は16億パラメータで学習した日本語の小型言語モデルです。
こちらのモデルはStability AI メンバーシップにご加入いただくことで商用利用が可能です。
詳細はこちら💁♀️… pic.twitter.com/b35t2Il4lm
JSLM2 1.6Bは、適度なハードウェアリソースで高速な実験を可能にし、スピードと性能を両立したコンパクトな日本語言語モデル。
ベースモデルである「Japanese Stable LM 2 Base 1.6B」と指示応答学習済みモデルである「Japanese Stable LM 2 Instruct 1.6B」の2種類からなり、どちらもHugging Faceよりダウンロードして利用できる。Stability AIメンバーシップに登録することで商用利用も可能だ。
同モデルは、メタが開発した「LLaMA」のアーキテクチャをベースにしており、位置エンベディング、正規化、バイアスの扱いなどにいくつかの変更が加えられているという。
トレーニングデータには、日本語版と英語版のWikipediaおよび、Stability AIが収集した大規模な日本語ウェブコーパス「CulturaX」などが使用されている。
これらの多様なデータソースを組み合わせることで、幅広い話題に対応し自然で流暢な日本語の生成が可能となっているという。
ただし、トレーニングデータには、クリーニング処理をした後もなお、不適切なコンテンツが含まれている可能性があるため、モデルの出力には注意が必要とのことだ。
70億パラメーターのモデルに近いスコアを獲得
ベンチマークを使用し、他の小規模パラメータのモデルと比較した結果、16億パラメーターという小型モデルでありながら、40億パラメーター以下のモデルのスコアよりも高いスコアを達成し、70億パラメーターのモデルに近いスコアを獲得している。
同モデルのようなコンパクトなLLMが登場することで、研究と開発のハードルが下がり、より迅速に実験を繰り返すことが可能になることが期待されている。