ELYZA、商用利用可能な70億パラメーターの日本語LLMを一般公開
ELYZAは8月29日、商用利用可能な70億パラメーターの日本語LLM「ELYZA-japanese-Llama-2-7b」を開発、一般公開した。
本モデルはMetaが公開した英語ベースの大規模言語モデルLlama 2をベースに日本語の能力を向上。およそ180億トークンの日本語テキストで追加事前学習し、ELYZA独自作成の「ELYZA Tasks 100」による性能評価では1750億パラメーターを有する「GPT-3.5(text-davinci-003)」に匹敵するスコアが算出されているという。
なお、ライセンスはLLAMA 2 Community Licenseに準拠しており、Acceptable Use Policyに従う限りにおいて、研究および商業目的での利用が可能となっている。
モデルの詳細はこちらを参照のこと。
今後、同社はLlama 2の130億、700億パラメーターモデルの日本語化に着手し開発を進めるほか、海外のオープンなモデルの日本語化や、自社独自の大規模言語モデルの開発にも継続して投資をしていくという。