Stability.aiは2月22日(現地時間)、同社が開発する画像生成AI「Stable Diffusion」シリーズの最新版となる「Stable Diffusion 3」の初期プレビューを発表、ウェイティングリストを公開した。
正確にアルファベットを出せる
Stable Diffusion 3は旧モデルと比較して、画質および様々なプロンプトへの対応が大幅に向上した最新のText 2 Imageモデルだ。
特にこれまでのモデルでは難しかった「画像内での正確なアルファベット表記」が可能になっている。
プロンプト:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy
これは記事上部に表示されている画像のスクリプトだが、指定された「Stable Diffusion 3」の文字列が正確に表示されているのがわかる。
8億〜80億パラメーターの幅広いサイズで提供予定
同モデルはユーザーのニーズにあわせて800M(8億)から8B(80億)パラメータという幅広いサイズで提供される。拡散トランスフォーマーアーキテクチャとフローマッチングという最新の技術を導入した全く新しいものとなる予定。詳しい技術詳細は追って公開されるという。
モデル自体はまだ公開されていないが、本日よりウェイティングリストが開設されている。これは、一般公開に先駆けて性能と安全性を向上させるためのフィードバック収集が目的だ。