このページの本文へ

画像生成AI「Stable Diffusion 3 Medium」公開 プロンプトの理解力が上がり、リアルな画像が生成可能に

2024年06月14日 11時30分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 Stability.aiは6月12日、同社が開発する画像生成AI「Stable Diffusion 3」シリーズの最新モデル「Stable Diffusion 3 Medium」を発表、重み付きモデルをHugging Faceで公開した。無償の非商用ライセンスおよびクリエイターライセンスの下で利用可能だ。

3種類のテキストエンコーダーで複雑なプロンプトに追従

 Stable Diffusion 3シリーズはこれまで80億パラメーターの大型モデル「SD3 Large」および高速版の「SD3 Large Turbo」の2モデルがAPI経由で利用できる状態だった。

 今回のStable Diffusion 3 Mediumは20億パラメーターとこれまでより小型のモデル。VRAM使用量も低く、個人向けシステムや企業向けGPUで動作させるのに最適だという。

 従来のモデルと比較して画像の品質(ディテール、色味、ライティング)が向上しているうえ、新たな機構「16チャンネルVAE」により、従来のモデルでは表現が難しかった手や顔のパーツに関し、より自然でリアルな描写が可能になったとしている。

 プロンプトの理解には「OpenCLIP-ViT/G」「CLIP-ViT/L」「T5-xxl」と3つのテキストエンコーダーををすべて、または組み合わせて使用することによって、パフォーマンスとマシン効率を両立している。

 たとえば、空間的推論、構成要素、アクション、スタイルなどを含む、文章のように長く複雑なプロンプトのときは、3種類のテキストエンコーダーすべてを組み合わせることでより深く理解することができる。一方、処理速度を優先する場合は1種類だけを使用するなど、柔軟な対応が可能だ。

 従来は難しかったテキストの表示もDiffusion Transformerアーキテクチャを活用することで、スペル、カーニング、文字組み、スペーシングのミスを減らし、高い品質を実現しているという。

月額20米ドルの「Creator License」を新設

 Stable Diffusion 3 Mediumは無償の非商用ライセンス(STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE)なので、誰でもHugging Faceからモデルを入手し自身の環境で試すことができる。

 Hugging Faceには4つの重み付きモデルが公開されている。「sd3_medium.safetensors」は文字エンコーダーが付属していないモデル。

 「sd3_medium_incl_clips.safetensors」は「OpenCLIP-ViT/G」「CLIP-ViT/L」と2つの文字エンコーダーは含まれるものの「T5-xxl」は含まれないモデル。

 そして「sd3_medium_incl_clips_t5xxlfp16.safetensors」「sd3_medium_incl_clips_t5xxlfp8.safetensors」は、「T5-xxl」を含む全ての文字エンコーダーが含まれるモデルだ。

 当然3つのエンコーダーが含まれたモデルのほうがプロンプト追従性は高いが、そのぶんVRAM使用量が増えるため、ユーザーは自分の環境に合わせたモデルを選ぶ必要がある。

 また、AIの活用奨励などを目的に、プロのアーティスト、デザイナー、開発者、AI愛好家などを対象にした商用利用可能な「Creator License」が新設された。

 年間収益100万ドル未満、機関からの資金提供100万ドル未満、月間アクティブユーザー数100万人未満のクリエイターおよび開発者という制限はあるものの、月額20米ドル(およそ3140円)で月に6000枚まで商用利用可能な画像を生成できる。これ以上の規模が見込まれる場合は「Enterprise License」が推奨となる。

 なお、ローカル環境で実行するだけではなく、従量課金のAPI経由や「Stable Assistant」と「Stable Artisan」といったブラウザーで利用できるサービスでもStable Diffusion 3 Mediumを使用することができる。

 現状、Stable Diffusionを使用する画像生成界隈では「SD1.5」「SDXL」の2つの系統のモデルが使われることが多いが、「SD3」の登場は前モデルを置き換えることになるのか、それとも併存していくのか、経緯を見守りたい。

カテゴリートップへ

ピックアップ