このページの本文へ

新清士の「メタバース・プレゼンス」 第78回

話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは

2024年09月09日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

棲み分けられるMidjourneyとFLUX.1

 こうしてFLUX.1がクラウドサービスとして広がりつつあることもあり、画像生成AIの有償クラウドサービスとして最も成功していると推測されているMidjourneyの対抗馬として見られつつあります。実際、FLUX.1が登場したときも、FLUX.1自体も発表時にプロンプトへの追従度は、Midjourneyよりも高いということをアピールしたため、特に英語圏ではしきりにMidjourneyと性能が比較されていました。

 ただ、ここ1ヵ月使ってきた感想としては、画像単体の魅力はMidjourneyの方が高いように感じられます。Midjourneyは品質を引き上げるために、ユーザーに対しても2枚の画像を見せてどちらの方がより品質が高いか比べる評価テストを積極的に実施しており、人間が評価する絵を追求してきたことで、一日の長があります。学習量もサービス開始からの約2年間で相当進んでいると思われるため、簡単にFLUX.1が品質面でも抜き去り、ユーザーを奪うという状況にはならないと考えられます。

 Midjourneyのスタンダードプランは月30ドルで、15時間分の計算時間の利用料という形式です。1枚あたりのコストという形ではないため、Flux.1と比較しにくい点もあります。ただ、スタンダードプランの場合、15時間使い切っても「リラックスモード」という生成速度が遅いモードで生成できるため、実質的には無制限で利用できる点が強みです。このあたりの料金体系の違いも選ばれる際に検討される要素になるのではないでしょうか。

同じプロンプトで生成した2枚。左がMidjourney、右がFlux.1 dev。どちらも迫力ある画像だが、絵としての魅力はMidjourneyの方が上のように見える。Midjourneyのプロンプトはユーザーが公開しているものを参考にし、自然文になっていないのでFlux.1 dev用のプロンプトはその画像をFlux AI Image Generatorの「Flux AI画像からプロンプト生成器」を利用して自然な文章を生成している

 プロンプトだけで、FLUX.1 devでMidjourneyに匹敵するような画像を出すには、現在のベースモデルはファインチューニングの量が不足しているように感じます。「Stable Diffusion XL」はリリースされてから半年余り後に、コミュニティーによってファインチューニングされた「AnimagineXL」や「Pony Diffusion XL」が登場して、公式モデルでは出せなかったレベルの品質が出せるようになりました。これはそもそものモデルの潜在空間(Latent space)にそれだけの表現力が潜んでいるからこそ、ファインチューニングによって引き出すことに成功したのです。FLUX.1 devはそうした高品質なファインチューニングモデルを作るための模索作業が続いています。

 ただし一方で、FLUX.1には「Image 2 Image(i2i)」が使えるという大きな強みがあります。まだFLUX.1のクラウドサービスで対応しているところは少ないようですが、Midjourneyにはこの機能がないので大きな強みになります。今でも、FLUX.1の潜在空間の片鱗を見ることができるのがi2iなのです。Midjourneyで生成された情報量の多い画像を利用してi2iを作成することで、プロンプトだけでは作成できない複雑な画像を作り出すことができます。

 例として、Midjourneyで生成した画像を利用して、FLUX.1 devで、複数のLoRAを組み合わせることでコントロールした画像を紹介します。複数の画像を組み合わせて、なじませた画像を作り出すことも得意です。Midjourneyで作成した虎の絵に、レタッチして、虎に乗っているように見える女性を合成しました。足なども適当に描き足しています。これを、FLUX.1 devのi2iに入れて生成するだけで、虎の上に女性が乗っている画像ができあがるのです。

Web UI ForgeでのFLUX.1 devのi2i作成例。Photoshopで虎と明日来子さんの2枚の画像を組み合わせて、右側の画像を作成し、その画像を解析しプロンプトを作成し、さらに画像に合わせて修正。筆者が独自作成したLoRAなどを組み合わせ、強度は0.5程度で作成

 元の絵の形状を保ったまま、豪華にしたり、アニメ風にしたりもできます。変化の強度設定を変えたり、少し工夫を加えるだけで、絵の情報量をコントロールできます。

前述の画像を使って、先週紹介したファインチューニングモデルのFluximationでi2iをして、よりイラスト的な雰囲気を強調したもの(左)、NovelAIの線画機能を使い線画にした後に、再度i2iを掛けて精緻化したもの(右)

 Midjourneyの画像をよりアニメ風にしたり、バリエーションを作るのに、FLUX.1 devの表現力は非常に効果的なのです。Stable Diffusion XLのi2iでも同様のことができるのですが、ここまで精緻に画像の整合性を取ることはできませんでした。

 表現できる画像の画風は、そのウェイトモデルの潜在空間の持つ可能性です。将来的にFLUX.1のファインチューニングモデルの登場によって、さらに様々な表現が実現され、性能が上がっていくことをはっきりと示唆しています。

カテゴリートップへ

この連載の記事
ピックアップ