このページの本文へ

サイバーエージェント、画像認識できる75億パラメーターの日本語LLM公開 商用利用OK

2024年06月14日 17時15分更新

文● @sumire_kon

  • この記事をはてなブックマークに追加
  • 本文印刷
サイバーエージェントの告知画像

 サイバーエージェントは6月13日、日本語大規模言語モデル(LLM)に画像認識機能を追加した大規模視覚言語モデル(VLM)「llava-calm2-siglip」を公開した。

日本語に特化した75億パラメーターのVLM

 2024年6月現在、テキストと画像の同時処理に対応したAIモデル(VLM)は複数の企業から発表されているが、多くは英語圏で作られたもので、日本語に特化したモデルは少ない。こうした状況を受け同社が開発したのが、今回発表された日本語VLM「llava-calm2-siglip」だ。

 開発に必要な学習データのメインには、サイバーエージェント社内の日本語LLMで合成したデータセットを使用。学習時に使用したパラメーター数は75億となっている。

 発表時点ではApache-2.0ライセンスが適用され、商用利用やチューンナップに対応した通常版モデルを公開中。さらに研究用途であれば、開発中の高性能版のデモを試すことも可能だ。

 通常版、高性能版のどちらも、AIプラットフォーム「Hugging Face Hub」から利用できる。

カテゴリートップへ

ピックアップ