棲み分けられるMidjourneyとFLUX.1
こうしてFLUX.1がクラウドサービスとして広がりつつあることもあり、画像生成AIの有償クラウドサービスとして最も成功していると推測されているMidjourneyの対抗馬として見られつつあります。実際、FLUX.1が登場したときも、FLUX.1自体も発表時にプロンプトへの追従度は、Midjourneyよりも高いということをアピールしたため、特に英語圏ではしきりにMidjourneyと性能が比較されていました。
ただ、ここ1ヵ月使ってきた感想としては、画像単体の魅力はMidjourneyの方が高いように感じられます。Midjourneyは品質を引き上げるために、ユーザーに対しても2枚の画像を見せてどちらの方がより品質が高いか比べる評価テストを積極的に実施しており、人間が評価する絵を追求してきたことで、一日の長があります。学習量もサービス開始からの約2年間で相当進んでいると思われるため、簡単にFLUX.1が品質面でも抜き去り、ユーザーを奪うという状況にはならないと考えられます。
Midjourneyのスタンダードプランは月30ドルで、15時間分の計算時間の利用料という形式です。1枚あたりのコストという形ではないため、Flux.1と比較しにくい点もあります。ただ、スタンダードプランの場合、15時間使い切っても「リラックスモード」という生成速度が遅いモードで生成できるため、実質的には無制限で利用できる点が強みです。このあたりの料金体系の違いも選ばれる際に検討される要素になるのではないでしょうか。
同じプロンプトで生成した2枚。左がMidjourney、右がFlux.1 dev。どちらも迫力ある画像だが、絵としての魅力はMidjourneyの方が上のように見える。Midjourneyのプロンプトはユーザーが公開しているものを参考にし、自然文になっていないのでFlux.1 dev用のプロンプトはその画像をFlux AI Image Generatorの「Flux AI画像からプロンプト生成器」を利用して自然な文章を生成している
プロンプトだけで、FLUX.1 devでMidjourneyに匹敵するような画像を出すには、現在のベースモデルはファインチューニングの量が不足しているように感じます。「Stable Diffusion XL」はリリースされてから半年余り後に、コミュニティーによってファインチューニングされた「AnimagineXL」や「Pony Diffusion XL」が登場して、公式モデルでは出せなかったレベルの品質が出せるようになりました。これはそもそものモデルの潜在空間(Latent space)にそれだけの表現力が潜んでいるからこそ、ファインチューニングによって引き出すことに成功したのです。FLUX.1 devはそうした高品質なファインチューニングモデルを作るための模索作業が続いています。
ただし一方で、FLUX.1には「Image 2 Image(i2i)」が使えるという大きな強みがあります。まだFLUX.1のクラウドサービスで対応しているところは少ないようですが、Midjourneyにはこの機能がないので大きな強みになります。今でも、FLUX.1の潜在空間の片鱗を見ることができるのがi2iなのです。Midjourneyで生成された情報量の多い画像を利用してi2iを作成することで、プロンプトだけでは作成できない複雑な画像を作り出すことができます。
例として、Midjourneyで生成した画像を利用して、FLUX.1 devで、複数のLoRAを組み合わせることでコントロールした画像を紹介します。複数の画像を組み合わせて、なじませた画像を作り出すことも得意です。Midjourneyで作成した虎の絵に、レタッチして、虎に乗っているように見える女性を合成しました。足なども適当に描き足しています。これを、FLUX.1 devのi2iに入れて生成するだけで、虎の上に女性が乗っている画像ができあがるのです。
Web UI ForgeでのFLUX.1 devのi2i作成例。Photoshopで虎と明日来子さんの2枚の画像を組み合わせて、右側の画像を作成し、その画像を解析しプロンプトを作成し、さらに画像に合わせて修正。筆者が独自作成したLoRAなどを組み合わせ、強度は0.5程度で作成
元の絵の形状を保ったまま、豪華にしたり、アニメ風にしたりもできます。変化の強度設定を変えたり、少し工夫を加えるだけで、絵の情報量をコントロールできます。
前述の画像を使って、先週紹介したファインチューニングモデルのFluximationでi2iをして、よりイラスト的な雰囲気を強調したもの(左)、NovelAIの線画機能を使い線画にした後に、再度i2iを掛けて精緻化したもの(右)
Midjourneyの画像をよりアニメ風にしたり、バリエーションを作るのに、FLUX.1 devの表現力は非常に効果的なのです。Stable Diffusion XLのi2iでも同様のことができるのですが、ここまで精緻に画像の整合性を取ることはできませんでした。
表現できる画像の画風は、そのウェイトモデルの潜在空間の持つ可能性です。将来的にFLUX.1のファインチューニングモデルの登場によって、さらに様々な表現が実現され、性能が上がっていくことをはっきりと示唆しています。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ





