ライティングと発色は美しい。リアル系の画像は写真レベル
実際に出力はどうか。
サンプルとして公開されているワークフローで生成してみるとかなりきれいに出ました。SD3Mでは自然なライティングができていたりと、SDXLより優れていると感じられる部分はあります。SDXLで同じような発色を出そうと思うと、ファインチューニング(微調整)したカスタムモデルや、LoRAを組み合わせなければ難しいのではないかと思います。ただ、劇的に変化したかというと、そこまでは達していないように感じます。
サンプルのワークフローでは、画像は1024×1024というSDXLと同様の解像度で出力されます。ディティールを書き出してもくれるので少し物足りなくも感じますが、画像はディティールや画質を維持したまま画像サイズを拡大できるアップスケーラーを使うのが前提になっているようです。こちらもサンプルのワークフローが用意されています。
テストのため、自然文での長文プロンプトを簡単に生成するのにいい方法がないかと考えたのですが、ChatGPTに自分のプロフィール写真を解析させる方法を取りました。日本人の中年男性を描写するプロンプトが生成されました。それでSD3Mで生成してみたところ、どこかにいそうな妙な実在感のある中年男性が出てきました(笑)。プロフィール写真としてはそのまま使えそうなリアルさで、一見写真と見間違えてしまいそうです。写真っぽい印象は非常に自然で、単純な生成だけで、ここまで出せるというのはすごいとは思います。
複雑な場面もテキストだけで生成可能。ただし気になる部分も
次に、サンプルワークフローで公開されている「マルチCLIP」という機能を使い、複雑なプロンプトを試してみます。
これは3種類のプロンプトを同時に入力し、それぞれのプロンプトを公平に反映させるという、MMDiTの強さを生かした仕組みです。これまではタグごとに分けた形で入力するのが基本で、プロンプトの影響力は前に書かれている単語ほど影響力が大きいものでした。一方、SD3Mでは、3種類の分割したプロンプトに同じ重みで生成ができるようになっています。
試しに「アンドロイドがいる研究室」という条件で、やはり同じようにChatGPTでプロンプトを作成してみました。
その複雑なプロンプトを3つに分割して、CLIPの1つ目に「アンドロイド」、2つ目に「研究室」、3つ目に「背景」の詳細をそれぞれ入れて生成してみました。生成された画像を見てみると、細かいところの破綻はありますが、研究室のホワイトボードに数式やグラフらしきものが書いてあったり、ディテールがちゃんと出ています。さらに、プロンプトの要素の一部だけを修正して構成要素を変えたりできるようにもなっています。
これがSD3ならではの特徴です。複雑なプロンプトにより、複雑な場面を生み出せるわけです。
ただし、気になる部分もありました。女性アンドロイドを指定して何度か生成してみたのですが、なんとなくプロンプトが無視されている気がします。プロンプトが長すぎるのかもしれません。ただ、DALL·E 3(ChatGPT)で画像を同じプロンプトで生成した場合には、きちんと女性アンドロイドが出ています。プロンプトをシンプルにするとSD3Mでも出力できたので、効果が大きいテキストの量は存在しそうです。
アニメ系は基本的にはそれなりにきれいな描画が出るものの、指や髪の破綻が激しいですね。この辺りはSDXLの基本的な特徴を引き継いでいるような印象も受けます。
参考までに、昨年の記事で作成した画像を同じようにChatGPTに解析させて、同じように長文プロンプトを作成し、それらにどれぐらい近い画像を生成できるのかを、様々なサービスで比較してみました。SD3M、DALL·E 3(ChatGPT)、Midjouney、Nijijounery、NovelAIの各種です。ポイントは色の違いで、赤、青、緑・黄というキャラクターの服装の違いを描画できるかというところですが、SD3Mでもそれなりにできてはいるようです。ただ、やや棒立ちに近く、そのままでは魅力的な画像とは言えませんでした。とはいえ、今後ファインチューニングがされれば、かなり改善してくる可能性が感じられます。
![](/img/blank.gif)
この連載の記事
-
第68回
AI
AIが作る3Dモデルの完成度が上がってきた 毎回異なるモンスターが生成されるゲームも実現か -
第67回
AI
アドビの画像生成AI機能がまた進化 白黒3Dモデルがリアルな都市に -
第66回
AI
有名人そっくり、増え続けるAI音声 “声の権利”どう守る -
第65回
AI
画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 -
第64回
AI
自分好みのAIチャット相手を簡単に作れる「Dify」が面白い -
第63回
AI
まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 -
第62回
AI
動画生成AI、映像制作の“民主化”目指して研究進む -
第61回
AI
画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも -
第60回
AI
3Dアニメーション技術の革新が止まらない -
第59回
AI
政府、生成AI推進に向けて議論を加速 - この連載の一覧へ