このページの本文へ

新清士の「メタバース・プレゼンス」 第132回

画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」

2025年11月17日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

動画が長いほど正確になる仕組み

 注意が必要なのは、動画として生成しているため、入力の画像サイズが大きいと、生成に必要なVRAMがより大きくなる点です。また、「動画の長さ」がプロンプトを正確に反映するための重要な要素になります。長く取れば取るほど、反映される可能性が高まるのです。

 Wan2.1は16fpsで処理されているため、16(1秒)、32(2秒)、48(3秒)と長さの指定をしていきます。始点画像はフレームを0としてカウントされるため、プラス1されて表示されます。また、動画から特定のフレームの画像を抽出するノード「Get Image or Mask Range From Batch」のstart_indexも同じように指定します。ただし、単純に生成する時間は長さに応じて変化します。筆者のNVIDIA RTX 4090のローカルPC環境で1184x854のサイズで生成したところ、16フレームでは70秒、32フレームは140秒と、48フレームは230秒かかっており、単純に長さがそのまま生成時間に反映されました。

 実際に「女は背を向けると、奥へ歩いていった」というプロンプトで試したところ、16フレームでは顔を横に向けるだけ、32フレームでは後ろを向く、48フレームではしっかりと後ろを向いて歩いていくという違いが起きました。

生成された結果。各フレーム数の結果による違い

△生成された動画による違い

Eshaさんのワークフローで指定が必要なのは、「長さ」と「start_index」の2箇所。画像は32フレーム(2秒)と指定する場合の例

カテゴリートップへ

この連載の記事
ピックアップ