「芝生の上で横になっている」指示ができない? 品質に暗雲
一方で、リリースから1日目で、RedditでSD3Mについての奇妙な報告が相次ぎました。「芝生の上に横になっている」という単純な指示の画像が、まともに生成できないというのです。
SD3Mを触りはじめて確かに違和感はありました。SDXLよりも破綻した人体が生成されることが多い印象がしたのです。検証もしてみましたが、実写風の画像にしても、腕が消えていたり、指がくっついていたり、足が複数生えていたりと、体が破綻している画像がよく出ました。人物の顔やライティングはクオリティーが高いのですが、人物の生成に問題があるというのは間違いないようです。
やはり同じ条件で生成してみようということで、少しだけ工夫して「芝生の上に座っている女性」としてみました。脚と手が交差する構図は、オブジェクト同士の干渉があるために、生成AIは苦手とするものであるので、より顕著に特徴が出ると考えました。SD3M、DALL·E 3(ChatGPT)、Midjouney、Nijijounery、Novel AIで行った結果、SD3Mは不自然に身体が破綻する頻度が高い印象がします。
最後に、APIを使って、有料のSD3Lを試してみました。公式サイトを利用しています。完全ではないのですが、破綻する割合は低いことが確認できました。
つまり、SD3Mはオープン化して公開するために、機能を制限して公開したと考えられます。もちろんポルノ画像などを生成しにくいようにしているのだろうとは推測できます。しかしそれ以上に、SD3Mを極端にデータサイズが小さくしたことで大きな副作用があらわれているのではないでしょうか。
この実情がわかってくると、ユーザーの間ではSD3Mに対する失望が広がりました。SD3Mのそのままでは性能には限界があることがはっきりしてきました。ユーザーがファインチューニングしたモデルやLoRAを開発することなしに、SDM3の性能を引き上げることは難しいと考えられます。SDXLはリリースから10ヵ月で、コミュニティーの成長もあり、高性能なチェックポイントやControlNet(制御ツール)など、豊富な環境が整いはじめてきています。急いでSDXLからSDM3に移行すべき理由がユーザーには見えないのです。
この連載の記事
-
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは -
第77回
AI
画像生成AI「FLUX.1」が相当ヤバい LoRAで画風の再現も簡単に -
第76回
AI
「Stable Diffusion」の失敗に学び、画像生成AIの勢力図を塗り変える「FLUX.1」 -
第75回
AI
商業漫画にAIが使われるようになってきた -
第74回
AI
AIバブル崩壊をめぐって - この連載の一覧へ