棲み分けられるMidjourneyとFLUX.1
こうしてFLUX.1がクラウドサービスとして広がりつつあることもあり、画像生成AIの有償クラウドサービスとして最も成功していると推測されているMidjourneyの対抗馬として見られつつあります。実際、FLUX.1が登場したときも、FLUX.1自体も発表時にプロンプトへの追従度は、Midjourneyよりも高いということをアピールしたため、特に英語圏ではしきりにMidjourneyと性能が比較されていました。
ただ、ここ1ヵ月使ってきた感想としては、画像単体の魅力はMidjourneyの方が高いように感じられます。Midjourneyは品質を引き上げるために、ユーザーに対しても2枚の画像を見せてどちらの方がより品質が高いか比べる評価テストを積極的に実施しており、人間が評価する絵を追求してきたことで、一日の長があります。学習量もサービス開始からの約2年間で相当進んでいると思われるため、簡単にFLUX.1が品質面でも抜き去り、ユーザーを奪うという状況にはならないと考えられます。
Midjourneyのスタンダードプランは月30ドルで、15時間分の計算時間の利用料という形式です。1枚あたりのコストという形ではないため、Flux.1と比較しにくい点もあります。ただ、スタンダードプランの場合、15時間使い切っても「リラックスモード」という生成速度が遅いモードで生成できるため、実質的には無制限で利用できる点が強みです。このあたりの料金体系の違いも選ばれる際に検討される要素になるのではないでしょうか。

同じプロンプトで生成した2枚。左がMidjourney、右がFlux.1 dev。どちらも迫力ある画像だが、絵としての魅力はMidjourneyの方が上のように見える。Midjourneyのプロンプトはユーザーが公開しているものを参考にし、自然文になっていないのでFlux.1 dev用のプロンプトはその画像をFlux AI Image Generatorの「Flux AI画像からプロンプト生成器」を利用して自然な文章を生成している
プロンプトだけで、FLUX.1 devでMidjourneyに匹敵するような画像を出すには、現在のベースモデルはファインチューニングの量が不足しているように感じます。「Stable Diffusion XL」はリリースされてから半年余り後に、コミュニティーによってファインチューニングされた「AnimagineXL」や「Pony Diffusion XL」が登場して、公式モデルでは出せなかったレベルの品質が出せるようになりました。これはそもそものモデルの潜在空間(Latent space)にそれだけの表現力が潜んでいるからこそ、ファインチューニングによって引き出すことに成功したのです。FLUX.1 devはそうした高品質なファインチューニングモデルを作るための模索作業が続いています。
ただし一方で、FLUX.1には「Image 2 Image(i2i)」が使えるという大きな強みがあります。まだFLUX.1のクラウドサービスで対応しているところは少ないようですが、Midjourneyにはこの機能がないので大きな強みになります。今でも、FLUX.1の潜在空間の片鱗を見ることができるのがi2iなのです。Midjourneyで生成された情報量の多い画像を利用してi2iを作成することで、プロンプトだけでは作成できない複雑な画像を作り出すことができます。
例として、Midjourneyで生成した画像を利用して、FLUX.1 devで、複数のLoRAを組み合わせることでコントロールした画像を紹介します。複数の画像を組み合わせて、なじませた画像を作り出すことも得意です。Midjourneyで作成した虎の絵に、レタッチして、虎に乗っているように見える女性を合成しました。足なども適当に描き足しています。これを、FLUX.1 devのi2iに入れて生成するだけで、虎の上に女性が乗っている画像ができあがるのです。

Web UI ForgeでのFLUX.1 devのi2i作成例。Photoshopで虎と明日来子さんの2枚の画像を組み合わせて、右側の画像を作成し、その画像を解析しプロンプトを作成し、さらに画像に合わせて修正。筆者が独自作成したLoRAなどを組み合わせ、強度は0.5程度で作成
元の絵の形状を保ったまま、豪華にしたり、アニメ風にしたりもできます。変化の強度設定を変えたり、少し工夫を加えるだけで、絵の情報量をコントロールできます。

前述の画像を使って、先週紹介したファインチューニングモデルのFluximationでi2iをして、よりイラスト的な雰囲気を強調したもの(左)、NovelAIの線画機能を使い線画にした後に、再度i2iを掛けて精緻化したもの(右)
Midjourneyの画像をよりアニメ風にしたり、バリエーションを作るのに、FLUX.1 devの表現力は非常に効果的なのです。Stable Diffusion XLのi2iでも同様のことができるのですが、ここまで精緻に画像の整合性を取ることはできませんでした。
表現できる画像の画風は、そのウェイトモデルの潜在空間の持つ可能性です。将来的にFLUX.1のファインチューニングモデルの登場によって、さらに様々な表現が実現され、性能が上がっていくことをはっきりと示唆しています。

この連載の記事
-
第95回
AI
月3万円で使えるOpenAIの「Deep Research」 驚異的だが、情報格差が広がる不安も感じた -
第94回
トピックス
1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは -
第93回
AI
DeepSeek R1、無料で使えるAIとしては最強クラス -
第92回
AI
動画生成AI、ついにアダルトの扉が開く -
第91回
AI
AIの書いた小説が普通に面白い ChatGPT「o1」驚きの文章力 -
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 - この連載の一覧へ