6月12日、Stability AIの画像生成AI「Stable Diffusion 3 Medium(SD3M)」が公開されました。Stability AIは安定的な収益につながるビジネスモデルの構築に課題を抱えており、最新シリーズ「Stable Diffusion 3(SD3)」をどう位置づけるかが生命線と思われます。そこで、有料APIの使用が必須という形で性能の高い「Stable Diffusion 3 Large(SD3L)」を先行リリースしていました。SD3を「オープン化する」とX上で発言していた創業者のEmad Mostaque氏が4月にCEOを退任したことで約束は守られるのか……とも危惧されてきました。結果としてStability AIは、品質を落としたSD3Mを出すという判断をしてきました。しかし、SD3Mはライティングに高い表現力を持つ一方、意図的に落とされた品質に大きな課題が発見されており、普及が進むのか見えない状況になっています。
文章のように複雑なプロンプトも的確に理解
Stability AIはSD3Mを「生成AIの進化における大きなマイルストーン」と位置づけ、「強力なテクノロジーを民主化するという当社の取り組みを継続するもの」としています。ライセンスとしては、非商用向けの無料ライセンスと、売上が100万ドル以下などの条件が付いた月20ドルのクリエイターライセンス(商用ライセンス)が用意されています。それ以上の収益を得る企業の場合は別途ライセンス契約を結ぶ必要があり、その料金は明らかにされていません。
そもそも、Stable Diffusion 3の画像生成の方法はこれまでとアーキテクチャーが大きく異なっています。過去のStable Diffusionモデルでは、画像処理に特化した拡散アーキテクチャー「U-Net」が使われていました。それがSD3では自然言語処理で成功を収めたTransformerベースのモデルに移行し、「Multimodal Diffusion Transformer (MMDiT)」と「Rectified Flow」という新しい仕組みを採用しています。
MMDiTは、テキストと画像とを同時に扱うことが得意で、より複雑な文章のプロンプトを書いても、それを適切に読み解き、画像化する能力が高い技術とされています。Rectified Flowは、ノイズ除去プロセスを改善した手法で、これまでよりも高品質な画像が出力可能です。SD3はこれにより、長文のテキストプロンプトを入力しても、それに合わせた適切な画像を生み出せることを強みとしてアピールしています。
SD3がこうしたアーキテクチャーを採用したのは、複数の種類のデータ(モダリティー)を組み合わせて理解・処理できるマルチモーダルAIを目指して開発されたためです。画像だけしか扱えないAIから文字などの複数のデータを理解・処理できるようにすることで、今後応用範囲を広げていくことが目指されています。
実際に、テキストの理解は非常に強化されています。
公式にサポートされている実行環境のアプリ「ComfyUI」向けにサンプルとして公開されたWorkflowを見ると、テキストによりプロンプトを入力すると、テキストを画像化するうえで処理をする2つのクリップと1つの言語モデルで分析する仕組みになっています。特にSD3は、Googleが公開している「T5 XXL」という言語モデルを使うことで、複雑な文章を入れてもしっかりプロンプトに追従してくれるようになっています。これまでのStable Diffusionでは通常、クリップは1つでした。プロンプトも「a girl, black hair」などの単語を並べていくことが中心でしたが、SD3ではかなり複雑な文章で指示しても、文脈を踏まえて画像を生成してくれるようになったのです。
ただ、このT5 XXLのサイズが半端なく大きくて、圧縮率の低いものが10GB、もしくは15GBもあり、もっとも圧縮した基本のものでもファイルで5GBあります。SD3Mで小さな言語モデルと学習データ本体を使用するように設定するだけでVRAMが最低12GBくらい必要となります。なので、そのために、SD3Mを動かすための要求されるPCスペック水準は高いですね。SD3Mの画像の学習済みデータの本体ファイルが4.34GBなので、必要とされる言語モデルのほうが大きいくらいです。
なお、SD3Lは80億パラメーターを持つとされていますが、Mediumは20億パラメーター。ファイルサイズはSDXLの6.94GBよりも小さいサイズになっています。
この連載の記事
-
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは -
第77回
AI
画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に - この連載の一覧へ