このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第123回

グーグルの画像生成AI「Nano Banana」は異次元レベル AIコンテンツの作り方を根本から変えた

2025年09月08日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

 8月26日にリリースされたグーグルの画像AIモデル「Nano Banana(Gemini 2.5 Flash Image)」の性能の高さが話題を席巻しています。もとはAIのベンチマークサイト「LMArena」に、「nano-banana」という変な名前のモデルとして登場しました。とにかく、これまでの画像AIモデルと比べて、人物などの一貫性のレベルが段違いに高いという特徴があります。しかも、リリース後、商用版の「Gemini」だけでなく、テスト環境の「Google AI Studio」で、無料で使える環境を提供したこともあり、一般の人にまで利用や認知が広がりつつあります。また、その性能を探ろうと様々な試行錯誤がSNS上で繰り広げられています。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

人物描写の一貫性が異次元レベル

 これまで画像生成AIは、人物描写で一貫性が維持しづらいという課題を抱えていました。人物の顔の向きを変えたり、服を変えたりすると、生成するたびに別人になってしまうことが問題でした。それを乗り越えようと「Flux.1 Kontext」など、様々なモデルが挑戦し、成果を上げていました。(参考:“一貫性”がすごい画像生成AI 冬服→夏服も一発変換 話題の「FLUX.1 Kontext[dev]」 )

 ところが、Nano Bananaはこれまでのモデルと品質が、異次元といえるレベルでの一貫性を実現しているのです。

 いつも登場する作例AIモデル「明日来子さん」にいろいろな服に変身してもらいました。グーグルはAPI連携をさせたサンプルアプリとして、1枚の画像から時代別の画像を生成する「Past Forward」というアプリを公開していますが、それを使うと様々な時代の変化を生み出す画像を手軽に作れるのです。服装やポーズがそれぞれの年代に合わせて、出力されています。また、1980年代の画像を入力画像として「全身像にして写真の状態を維持したまま前、後ろ、横の三面図を作成してください」と指示すると、自然な雰囲気で出力されます。

 明日来子さんの人物としての一貫性が、驚異的なレベルで維持されています。 

明日来子さんの「Past Forward」での生成結果。1960年代(左上)、1970年代(右上)、1980年代(左下)、1990年代(右下)

▲上記の画像を動画AI「Wan2.2 I2V」で繋いでみたもの。最初の白いTシャツ姿が入力画像。静止画の一貫性によって自然なつながりになっている

1980年代の明日来子さんの画像の三面図。破綻なく自然に出力されている

 さらには、服装を変えたりということも簡単にできます。Midjourneyで作成した服装のサンプル画像を参照して、その服に変えてと指示すると、Tシャツ姿から自然に切り替わっています。また、両手を上げてダンスをしている様子とポーズを指示したり、傘を持って雨を降らせるようにと指示しても、そのシーンを構成して画像を生成してくれます。

右が参照画像で、中央の服装に切り替えてと指示すると、左の結果が得られる

両手を上げてダンスをする(左)、雨が降る中で傘を持っている(右)。左で、後ろの男性2人が両手を上げて踊っているのは、プロンプトの指定で、女性だと限定して指示していなかったためだと思われる

前へ 1 2 3 4 5 次へ

カテゴリートップへ

この連載の記事
ピックアップ