このページの本文へ

最新の画像生成AI「FLUX1.1 [pro]」違いは? Midjourney、DALL-E、Imagen 3、Stable Image Ultraと比較

2024年10月18日 17時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

複数の人物を描写

 複数の人物を出すのも画像生成AIの苦手なジャンルのひとつだ。女性グループが記念写真を撮影しているというシチュエーションはどうだろうか。

プロンプト:Young Japanese women gathering to take a group photo, IMG_123.HEIC(若い日本人女性たちが集まって集合写真を撮影している。)

 なお、最後に付けた「IMG_123.HEIC」は、Xなどで話題になったFluxでリアルな画像を作成する際に有効とされる呪文。「.HEIC」はiPhoneのデフォルトの写真保存形式なので、学習素材のファイル名に含まれやすいということなのだろうか、、

 ということで1.1 [pro]の生成結果はこちら。プロンプトに忠実ではあるものの全員の顔があまりにも似ている。髪型も服装も表情も同じなのはさすがに少し気持ち悪い。「IMG_123.HEIC」の効果は……よくわからない。

1.1 [pro]

 1 [pro]の方も、多少はマシだがそれでも同じ顔になってしまう傾向はある。各人の顔が密着しすぎなのも不自然だ。

1 [pro]

 Midjourneyは集合写真(group photo)というよりは、スマホで撮影中の女性がたくさん集まっているという解釈のようだ。ただし、日本女性=着物姿なのはいただけない。

Midjourney 6.1

 DALL-E 3、バッチリ集合写真なのだがアップにすると顔が崩れているのが惜しい。

DALL-E 3

 Imagen 3がいちばん自然な感じはするが、やはりよく見ると似た顔が多い。とは言えFluxと違って服装はバラエティーに富んでいる。

Imagen 3

 Stable Image Ultraも集合写真ではあるが、こちらも顔と髪型と服装が似通っている。

Stable Image Ultra

 集合写真はどのモデルにとっても鬼門かもしれない。中ではImagen 3がもっとも自然でよかった。

カテゴリートップへ

ピックアップ