ライティングと発色は美しい。リアル系の画像は写真レベル
実際に出力はどうか。
サンプルとして公開されているワークフローで生成してみるとかなりきれいに出ました。SD3Mでは自然なライティングができていたりと、SDXLより優れていると感じられる部分はあります。SDXLで同じような発色を出そうと思うと、ファインチューニング(微調整)したカスタムモデルや、LoRAを組み合わせなければ難しいのではないかと思います。ただ、劇的に変化したかというと、そこまでは達していないように感じます。
サンプルのワークフローでは、画像は1024×1024というSDXLと同様の解像度で出力されます。ディティールを書き出してもくれるので少し物足りなくも感じますが、画像はディティールや画質を維持したまま画像サイズを拡大できるアップスケーラーを使うのが前提になっているようです。こちらもサンプルのワークフローが用意されています。
テストのため、自然文での長文プロンプトを簡単に生成するのにいい方法がないかと考えたのですが、ChatGPTに自分のプロフィール写真を解析させる方法を取りました。日本人の中年男性を描写するプロンプトが生成されました。それでSD3Mで生成してみたところ、どこかにいそうな妙な実在感のある中年男性が出てきました(笑)。プロフィール写真としてはそのまま使えそうなリアルさで、一見写真と見間違えてしまいそうです。写真っぽい印象は非常に自然で、単純な生成だけで、ここまで出せるというのはすごいとは思います。
複雑な場面もテキストだけで生成可能。ただし気になる部分も
次に、サンプルワークフローで公開されている「マルチCLIP」という機能を使い、複雑なプロンプトを試してみます。
これは3種類のプロンプトを同時に入力し、それぞれのプロンプトを公平に反映させるという、MMDiTの強さを生かした仕組みです。これまではタグごとに分けた形で入力するのが基本で、プロンプトの影響力は前に書かれている単語ほど影響力が大きいものでした。一方、SD3Mでは、3種類の分割したプロンプトに同じ重みで生成ができるようになっています。
試しに「アンドロイドがいる研究室」という条件で、やはり同じようにChatGPTでプロンプトを作成してみました。
その複雑なプロンプトを3つに分割して、CLIPの1つ目に「アンドロイド」、2つ目に「研究室」、3つ目に「背景」の詳細をそれぞれ入れて生成してみました。生成された画像を見てみると、細かいところの破綻はありますが、研究室のホワイトボードに数式やグラフらしきものが書いてあったり、ディテールがちゃんと出ています。さらに、プロンプトの要素の一部だけを修正して構成要素を変えたりできるようにもなっています。
これがSD3ならではの特徴です。複雑なプロンプトにより、複雑な場面を生み出せるわけです。
ただし、気になる部分もありました。女性アンドロイドを指定して何度か生成してみたのですが、なんとなくプロンプトが無視されている気がします。プロンプトが長すぎるのかもしれません。ただ、DALL·E 3(ChatGPT)で画像を同じプロンプトで生成した場合には、きちんと女性アンドロイドが出ています。プロンプトをシンプルにするとSD3Mでも出力できたので、効果が大きいテキストの量は存在しそうです。
アニメ系は基本的にはそれなりにきれいな描画が出るものの、指や髪の破綻が激しいですね。この辺りはSDXLの基本的な特徴を引き継いでいるような印象も受けます。
参考までに、昨年の記事で作成した画像を同じようにChatGPTに解析させて、同じように長文プロンプトを作成し、それらにどれぐらい近い画像を生成できるのかを、様々なサービスで比較してみました。SD3M、DALL·E 3(ChatGPT)、Midjouney、Nijijounery、NovelAIの各種です。ポイントは色の違いで、赤、青、緑・黄というキャラクターの服装の違いを描画できるかというところですが、SD3Mでもそれなりにできてはいるようです。ただ、やや棒立ちに近く、そのままでは魅力的な画像とは言えませんでした。とはいえ、今後ファインチューニングがされれば、かなり改善してくる可能性が感じられます。
この連載の記事
-
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは -
第77回
AI
画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に -
第76回
AI
「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」 -
第75回
AI
商業漫画にAIが使われるようになってきた -
第74回
AI
AIバブル崩壊をめぐって - この連載の一覧へ