棲み分けられるMidjourneyとFLUX.1
こうしてFLUX.1がクラウドサービスとして広がりつつあることもあり、画像生成AIの有償クラウドサービスとして最も成功していると推測されているMidjourneyの対抗馬として見られつつあります。実際、FLUX.1が登場したときも、FLUX.1自体も発表時にプロンプトへの追従度は、Midjourneyよりも高いということをアピールしたため、特に英語圏ではしきりにMidjourneyと性能が比較されていました。
ただ、ここ1ヵ月使ってきた感想としては、画像単体の魅力はMidjourneyの方が高いように感じられます。Midjourneyは品質を引き上げるために、ユーザーに対しても2枚の画像を見せてどちらの方がより品質が高いか比べる評価テストを積極的に実施しており、人間が評価する絵を追求してきたことで、一日の長があります。学習量もサービス開始からの約2年間で相当進んでいると思われるため、簡単にFLUX.1が品質面でも抜き去り、ユーザーを奪うという状況にはならないと考えられます。
Midjourneyのスタンダードプランは月30ドルで、15時間分の計算時間の利用料という形式です。1枚あたりのコストという形ではないため、Flux.1と比較しにくい点もあります。ただ、スタンダードプランの場合、15時間使い切っても「リラックスモード」という生成速度が遅いモードで生成できるため、実質的には無制限で利用できる点が強みです。このあたりの料金体系の違いも選ばれる際に検討される要素になるのではないでしょうか。
プロンプトだけで、FLUX.1 devでMidjourneyに匹敵するような画像を出すには、現在のベースモデルはファインチューニングの量が不足しているように感じます。「Stable Diffusion XL」はリリースされてから半年余り後に、コミュニティーによってファインチューニングされた「AnimagineXL」や「Pony Diffusion XL」が登場して、公式モデルでは出せなかったレベルの品質が出せるようになりました。これはそもそものモデルの潜在空間(Latent space)にそれだけの表現力が潜んでいるからこそ、ファインチューニングによって引き出すことに成功したのです。FLUX.1 devはそうした高品質なファインチューニングモデルを作るための模索作業が続いています。
ただし一方で、FLUX.1には「Image 2 Image(i2i)」が使えるという大きな強みがあります。まだFLUX.1のクラウドサービスで対応しているところは少ないようですが、Midjourneyにはこの機能がないので大きな強みになります。今でも、FLUX.1の潜在空間の片鱗を見ることができるのがi2iなのです。Midjourneyで生成された情報量の多い画像を利用してi2iを作成することで、プロンプトだけでは作成できない複雑な画像を作り出すことができます。
例として、Midjourneyで生成した画像を利用して、FLUX.1 devで、複数のLoRAを組み合わせることでコントロールした画像を紹介します。複数の画像を組み合わせて、なじませた画像を作り出すことも得意です。Midjourneyで作成した虎の絵に、レタッチして、虎に乗っているように見える女性を合成しました。足なども適当に描き足しています。これを、FLUX.1 devのi2iに入れて生成するだけで、虎の上に女性が乗っている画像ができあがるのです。
元の絵の形状を保ったまま、豪華にしたり、アニメ風にしたりもできます。変化の強度設定を変えたり、少し工夫を加えるだけで、絵の情報量をコントロールできます。
Midjourneyの画像をよりアニメ風にしたり、バリエーションを作るのに、FLUX.1 devの表現力は非常に効果的なのです。Stable Diffusion XLのi2iでも同様のことができるのですが、ここまで精緻に画像の整合性を取ることはできませんでした。
表現できる画像の画風は、そのウェイトモデルの潜在空間の持つ可能性です。将来的にFLUX.1のファインチューニングモデルの登場によって、さらに様々な表現が実現され、性能が上がっていくことをはっきりと示唆しています。
この連載の記事
-
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 - この連載の一覧へ