サイバーエージェントは6月13日、日本語大規模言語モデル(LLM)に画像認識機能を追加した大規模視覚言語モデル(VLM)「llava-calm2-siglip」を公開した。
日本語に特化した75億パラメーターのVLM
2024年6月現在、テキストと画像の同時処理に対応したAIモデル(VLM)は複数の企業から発表されているが、多くは英語圏で作られたもので、日本語に特化したモデルは少ない。こうした状況を受け同社が開発したのが、今回発表された日本語VLM「llava-calm2-siglip」だ。
開発に必要な学習データのメインには、サイバーエージェント社内の日本語LLMで合成したデータセットを使用。学習時に使用したパラメーター数は75億となっている。
発表時点ではApache-2.0ライセンスが適用され、商用利用やチューンナップに対応した通常版モデルを公開中。さらに研究用途であれば、開発中の高性能版のデモを試すことも可能だ。
通常版、高性能版のどちらも、AIプラットフォーム「Hugging Face Hub」から利用できる。