AI企業のStability AIは10月22日、画像生成AIモデルの最新版「Stable Diffusion 3.5」シリーズを発表した。同日から利用可能な2つのモデルと、10月29日公開予定の一般向けモデルがある。
フラッグシップモデルの「Stable Diffusion 3.5 Large」は80億パラメーターで、1メガピクセルの高解像度画像生成に対応。特にプロンプトの追従性(忠実度)では業界トップクラスの性能を実現した。さらに処理速度を向上させた「Large Turbo」モデルは、わずか4ステップという短時間で高品質な画像生成を実現する。
10月29日に公開予定の「Medium」モデルは25億パラメーターで、一般的なコンピューターでも快適に動作するよう最適化されている。0.25から2メガピクセルまでの幅広い解像度に対応し、カスタマイズのしやすさと画質のバランスを重視して設計された。
利用条件としては、年間収益100万ドル未満の企業や個人クリエイターは、商用利用を含めて無料で利用可能だ。非商用目的での利用も完全無料で、生成された画像の著作権は利用者に帰属する。年間収益が100万ドルを超える企業向けには、別途エンタープライズライセンスが用意されることになっている。
現在、モデルはHugging Faceでダウンロード可能。Stability AI API、Replicate、ComfyUI、DeepInfraなど、複数のプラットフォームでも利用できる。Mediumモデルの公開後には、高度な制御機能「ControlNet」も順次リリースされる予定。
一方、「Stable Diffusion」開発者たちが開発したことで注目を集めた画像生成モデル「FLUX.1」は、120億のパラメータを持ち、特にテキスト生成能力や、解剖学的な描写の正確さにおいて優れた性能を示している。本家Stability AIから「Stable Diffusion 3.5」シリーズが登場したことによって、画像生成業界での競争がいっそう激しくなることが予想される。