6月12日、Stability AIの画像生成AI「Stable Diffusion 3 Medium(SD3M)」が公開されました。Stability AIは安定的な収益につながるビジネスモデルの構築に課題を抱えており、最新シリーズ「Stable Diffusion 3(SD3)」をどう位置づけるかが生命線と思われます。そこで、有料APIの使用が必須という形で性能の高い「Stable Diffusion 3 Large(SD3L)」を先行リリースしていました。SD3を「オープン化する」とX上で発言していた創業者のEmad Mostaque氏が4月にCEOを退任したことで約束は守られるのか……とも危惧されてきました。結果としてStability AIは、品質を落としたSD3Mを出すという判断をしてきました。しかし、SD3Mはライティングに高い表現力を持つ一方、意図的に落とされた品質に大きな課題が発見されており、普及が進むのか見えない状況になっています。
文章のように複雑なプロンプトも的確に理解
Stability AIはSD3Mを「生成AIの進化における大きなマイルストーン」と位置づけ、「強力なテクノロジーを民主化するという当社の取り組みを継続するもの」としています。ライセンスとしては、非商用向けの無料ライセンスと、売上が100万ドル以下などの条件が付いた月20ドルのクリエイターライセンス(商用ライセンス)が用意されています。それ以上の収益を得る企業の場合は別途ライセンス契約を結ぶ必要があり、その料金は明らかにされていません。
そもそも、Stable Diffusion 3の画像生成の方法はこれまでとアーキテクチャーが大きく異なっています。過去のStable Diffusionモデルでは、画像処理に特化した拡散アーキテクチャー「U-Net」が使われていました。それがSD3では自然言語処理で成功を収めたTransformerベースのモデルに移行し、「Multimodal Diffusion Transformer (MMDiT)」と「Rectified Flow」という新しい仕組みを採用しています。
MMDiTは、テキストと画像とを同時に扱うことが得意で、より複雑な文章のプロンプトを書いても、それを適切に読み解き、画像化する能力が高い技術とされています。Rectified Flowは、ノイズ除去プロセスを改善した手法で、これまでよりも高品質な画像が出力可能です。SD3はこれにより、長文のテキストプロンプトを入力しても、それに合わせた適切な画像を生み出せることを強みとしてアピールしています。
SD3がこうしたアーキテクチャーを採用したのは、複数の種類のデータ(モダリティー)を組み合わせて理解・処理できるマルチモーダルAIを目指して開発されたためです。画像だけしか扱えないAIから文字などの複数のデータを理解・処理できるようにすることで、今後応用範囲を広げていくことが目指されています。
実際に、テキストの理解は非常に強化されています。
公式にサポートされている実行環境のアプリ「ComfyUI」向けにサンプルとして公開されたWorkflowを見ると、テキストによりプロンプトを入力すると、テキストを画像化するうえで処理をする2つのクリップと1つの言語モデルで分析する仕組みになっています。特にSD3は、Googleが公開している「T5 XXL」という言語モデルを使うことで、複雑な文章を入れてもしっかりプロンプトに追従してくれるようになっています。これまでのStable Diffusionでは通常、クリップは1つでした。プロンプトも「a girl, black hair」などの単語を並べていくことが中心でしたが、SD3ではかなり複雑な文章で指示しても、文脈を踏まえて画像を生成してくれるようになったのです。
ただ、このT5 XXLのサイズが半端なく大きくて、圧縮率の低いものが10GB、もしくは15GBもあり、もっとも圧縮した基本のものでもファイルで5GBあります。SD3Mで小さな言語モデルと学習データ本体を使用するように設定するだけでVRAMが最低12GBくらい必要となります。なので、そのために、SD3Mを動かすための要求されるPCスペック水準は高いですね。SD3Mの画像の学習済みデータの本体ファイルが4.34GBなので、必要とされる言語モデルのほうが大きいくらいです。
なお、SD3Lは80億パラメーターを持つとされていますが、Mediumは20億パラメーター。ファイルサイズはSDXLの6.94GBよりも小さいサイズになっています。
この連載の記事
-
第68回
AI
AIが作る3Dモデルの完成度が上がってきた 毎回異なるモンスターが生成されるゲームも実現か -
第67回
AI
アドビの画像生成AI機能がまた進化 白黒3Dモデルがリアルな都市に -
第66回
AI
有名人そっくり、増え続けるAI音声 “声の権利”どう守る -
第65回
AI
画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 -
第64回
AI
自分好みのAIチャット相手を簡単に作れる「Dify」が面白い -
第63回
AI
まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 -
第62回
AI
動画生成AI、映像制作の“民主化”目指して研究進む -
第61回
AI
画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも -
第60回
AI
3Dアニメーション技術の革新が止まらない -
第59回
AI
政府、生成AI推進に向けて議論を加速 - この連載の一覧へ