このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第132回

画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」

2025年11月17日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

 NVIDIAが10月に、AI画像編集技術「NVIDIA ChronoEdit」を発表しました。グーグルの「Nano Banana(Gemini 2.5 Flash Image)」のような一貫性を実現する画像生成技術ですが、アリババの動画生成AI「Wan2.1」ベースで作られた変わった仕組みです。論文によれば、動画140万本と画像ペア210万組を追加学習させたものということ。画像生成時は、プロンプトに合わせた動画をいったん生成して、最終コマを画像として出力する仕組みです。特に物理属性の精度が高いという特徴があります。たとえば画像からの変化を適切に捉えたり、画像の時間帯を変えたりといった編集を得意としています。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

物理的に正確な画像編集ができる

 Hugging Faceでデモ用のSpaceアプリが公開されているので、そちらで試すことができます。画像を配置して、プロンプトを入力して生成すると、そのプロンプトに合わせた画像が登場します。プロンプトは英語で入力する必要があります。

 ところが、表示がほとんど変化しないこともあります。その場合、Advanced Settingsの「Enable Temporal Reasoning」と「Enable Prompt Enhance」をオンにしてください。生成時間は60秒から120秒ほどと大幅に長くなりますが、適切に出る確率が高まります。

 この連載でおなじみの作例モデル「明日来子さん」を使って、様々な生成結果を試してみました。人物や空間の一貫性がある程度、確保されつつ、生成されています。

Spacesでのデモで、Advanced Settingsを設定して、「若い女性が後ろを向いて歩き始める」と指定した結果

様々なものを生成した結果。「若い女性がダンスしている」(左上)、「時間を朝に」(右上)、「通りが水で溢れて、女性が泳いでいる」(左下)、「ダンスしている女性と群衆もダンスしながら歩いている」(右下)。実際のプロンプトはすべて英語

前へ 1 2 3 4 5 次へ

カテゴリートップへ

この連載の記事
ピックアップ