ライティングと発色は美しい。リアル系の画像は写真レベル
実際に出力はどうか。
サンプルとして公開されているワークフローで生成してみるとかなりきれいに出ました。SD3Mでは自然なライティングができていたりと、SDXLより優れていると感じられる部分はあります。SDXLで同じような発色を出そうと思うと、ファインチューニング(微調整)したカスタムモデルや、LoRAを組み合わせなければ難しいのではないかと思います。ただ、劇的に変化したかというと、そこまでは達していないように感じます。
サンプルのワークフローでは、画像は1024×1024というSDXLと同様の解像度で出力されます。ディティールを書き出してもくれるので少し物足りなくも感じますが、画像はディティールや画質を維持したまま画像サイズを拡大できるアップスケーラーを使うのが前提になっているようです。こちらもサンプルのワークフローが用意されています。
テストのため、自然文での長文プロンプトを簡単に生成するのにいい方法がないかと考えたのですが、ChatGPTに自分のプロフィール写真を解析させる方法を取りました。日本人の中年男性を描写するプロンプトが生成されました。それでSD3Mで生成してみたところ、どこかにいそうな妙な実在感のある中年男性が出てきました(笑)。プロフィール写真としてはそのまま使えそうなリアルさで、一見写真と見間違えてしまいそうです。写真っぽい印象は非常に自然で、単純な生成だけで、ここまで出せるというのはすごいとは思います。
複雑な場面もテキストだけで生成可能。ただし気になる部分も
次に、サンプルワークフローで公開されている「マルチCLIP」という機能を使い、複雑なプロンプトを試してみます。
これは3種類のプロンプトを同時に入力し、それぞれのプロンプトを公平に反映させるという、MMDiTの強さを生かした仕組みです。これまではタグごとに分けた形で入力するのが基本で、プロンプトの影響力は前に書かれている単語ほど影響力が大きいものでした。一方、SD3Mでは、3種類の分割したプロンプトに同じ重みで生成ができるようになっています。
試しに「アンドロイドがいる研究室」という条件で、やはり同じようにChatGPTでプロンプトを作成してみました。
その複雑なプロンプトを3つに分割して、CLIPの1つ目に「アンドロイド」、2つ目に「研究室」、3つ目に「背景」の詳細をそれぞれ入れて生成してみました。生成された画像を見てみると、細かいところの破綻はありますが、研究室のホワイトボードに数式やグラフらしきものが書いてあったり、ディテールがちゃんと出ています。さらに、プロンプトの要素の一部だけを修正して構成要素を変えたりできるようにもなっています。
これがSD3ならではの特徴です。複雑なプロンプトにより、複雑な場面を生み出せるわけです。
ただし、気になる部分もありました。女性アンドロイドを指定して何度か生成してみたのですが、なんとなくプロンプトが無視されている気がします。プロンプトが長すぎるのかもしれません。ただ、DALL·E 3(ChatGPT)で画像を同じプロンプトで生成した場合には、きちんと女性アンドロイドが出ています。プロンプトをシンプルにするとSD3Mでも出力できたので、効果が大きいテキストの量は存在しそうです。
アニメ系は基本的にはそれなりにきれいな描画が出るものの、指や髪の破綻が激しいですね。この辺りはSDXLの基本的な特徴を引き継いでいるような印象も受けます。
参考までに、昨年の記事で作成した画像を同じようにChatGPTに解析させて、同じように長文プロンプトを作成し、それらにどれぐらい近い画像を生成できるのかを、様々なサービスで比較してみました。SD3M、DALL·E 3(ChatGPT)、Midjouney、Nijijounery、NovelAIの各種です。ポイントは色の違いで、赤、青、緑・黄というキャラクターの服装の違いを描画できるかというところですが、SD3Mでもそれなりにできてはいるようです。ただ、やや棒立ちに近く、そのままでは魅力的な画像とは言えませんでした。とはいえ、今後ファインチューニングがされれば、かなり改善してくる可能性が感じられます。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ













