Stable Diffusion入門 from Thailand 第17回
人気の画像生成AI、違いは? Stable Diffusion XL、Midjourney、DALL-E、Playgroundの画風を比較する
2024年07月10日 20時00分更新
テキストによるプロンプト(指示)から精細な画像を生成する画像生成AI。無料もしくは安価で利用できる環境が増えるなか、「どのAIを利用すればいいの?」という疑問も自然と出てくる。
費用、手軽さ、描画速度など比較項目はいくつか考えられるが、やはりいちばん気になるのは“画風”ではないか。
もちろんプロンプトなどにより好みの画風にすることはある程度可能だが、モデルそれぞれの特徴や得意分野があるため、ある程度の傾向は存在する。
この記事は、現在注目を集める4つの主要な画像生成AIモデルに同じプロンプトを与えて生成された画像を比較することでそれぞれの傾向を明らかにし、モデル選択の助けになることを目的としている。
※一部の配信先では画像や図表等が正確に表示されないことがあります。その場合はASCII.jpで配信中の記事をご確認ください
取り上げる4つのモデル
それでは、本記事で比較する4つのAIモデルを紹介しよう。
Midjourney
Midjourneyが提供する画像生成AIサービス。コミュニケーションプラットフォーム「Discord」経由での利用が必須だったがブラウザーから利用できるUIもテスト中。以前は無料でも利用できたが現在は月額10米ドル(およそ1600円)からのプランを購入する必要がある。最新のモデルバージョンは「v6」。
なお、使い方はこちらの記事を参照。
DALL-E 3(Microsoft Copilot Designer)
OpenAIが開発し、マイクロソフトがCopilotサービスに統合した画像生成AI。ChatGPTの有料プランであるChatGPT Proでも利用できるが、Copilot経由だと制限はあるが無料で生成できる。自然言語による詳細な指示が可能で、高品質な画像生成が特徴。
Stable Diffusion XL(SDXL)
Stability.AIが開発したオープンソースの画像生成AIモデル「Stable Diffusion」の拡張版で、より高解像度で詳細な画像生成が可能。ユーザーは直接このモデルをダウンロードしてローカルで利用できるのが最大の特徴だ。ただしそれなりのマシン環境が必要になる。ユーザーが作成した派生モデルも多数出回っているが今回はその大元であるベースモデル(stable-diffusion-xl-base-1.0)を使用した。
インストールや各種設定が初心者にはハードルが高いが、Stability Matrixを使えばかなりハードルが下がる。
Playground
Playground AI社が提供する画像生成AIモデル。現在のバージョンは2.5。DALL-E 3やMidjourney同様ブラウザーから利用可能。直感的なUIと素早い画像生成が特徴で、アーティストやデザイナー向けの機能も充実している。無料でも1日50枚の画像生成が可能。
8つの異なるジャンルで比較
それぞれのモデルの特徴を明らかにするため、「リアル美少女」「アニメ風美少女」「メカ系美少女」「男性キャラ」「自然風景」「サイバーパンク」「不気味な怪物」「料理」の8つの異なるジャンルの画像を生成してみた。
各ジャンルにつき1つのプロンプトを作成し、4つのAIモデルすべてに同じプロンプトを与えて画像を生成し、比較・分析する。各モデルの強みと弱み、そして特徴的な表現を把握し、自分の好みに最も適したAIモデルを選択する助けになることを目指している。
プロンプトの質も重要だ。ただ「リアル美少女」とひとこと入力しただけでも生成はされるだろうが、あまりにも漠然としすぎているため、1枚ごとにバラバラの画像になってしまうだろう。
ある程度内容を細かく指定したプロンプトを用意することで、プロンプトに対する忠実度もわかるので、大規模言語モデル(LLM)に考えてもらうことにした。また、一般的に日本語よりも英語によるプロンプトの方が追随性も高いのでそこもLLMにおまかせだ。
プロンプト:画像生成AIで「リアルな美少女」を生成するプロンプトを英語で書いて
まずはChatGPTに聞いてみると、期待通り長めのプロンプトを生成してくれた。ただ、気を回してくれたのか「inspired by japanese anime」という文字が入っているのでこれはNG。
キーワードによってはこのように回答を拒否されることもあるが、聞き方を工夫することで回避できる。以後、プロンプトはChatGPTとClaude 3.5 Sonnetを併用して作成している。
個人的にはClaude 3.5 Sonnetの方がプロンプトのセンスはいいと感じた。
それでは、8つのジャンルそれぞれについて、4つのAIモデルが生成した画像を詳しく見ていこう。
この連載の記事
-
第24回
AI
SD3.0の汚名返上なるか?!画像生成AI「Stable Diffusion 3.5」を試してみた -
第23回
AI
最新の画像生成AI「FLUX1.1 [pro]」違いは? Midjourney、DALL-E、Imagen 3、Stable Image Ultraと比較 -
第22回
AI
画像生成AI「Midjourney」の使い方 Webアプリ版の画像編集機能を完全マスター -
第21回
AI
画像生成AI「Midjourney」の使い方 待望のWebアプリ版を徹底的に解説します -
第20回
AI
話題の画像生成AI「FLUX.1」をStable Diffusion用の「WebUI Forge」で動かす(高速化も試してみました) -
第19回
AI
画像生成AI「Stable Diffusion」の代替に? 話題の「FLUX.1」を試した -
第18回
AI
イラストを完成させる動画はAIで作れるのか「Paints-Undo」試してみた -
第16回
AI
画像生成AI「Midjourney」の使い方 画風やキャラクターを固定する「スタイルリファレンス」「キャラクターリファレンス」はこう使う -
第15回
AI
画像生成AI「Midjourney」の使い方 思いどおりの絵を出すための「パラメーター」まとめ【最新版】 -
第14回
AI
画像生成AI「Midjourney」の使い方 ユーザー登録から最新機能まで【最新版】 - この連載の一覧へ