参照画像を使う:役割を分けて渡す
Geminiでは、参照画像を添えて生成の方向性を伝えられる。ただし、参照画像を増やせば精度が上がるわけではない。重要なのは、それぞれの画像にどんな役割を持たせるかだ。
- 世界観用:場所やスケール、光の条件など、映像全体のフレームを決める画像
- 主役用:人物やキャラクターの見た目や質感を伝える画像
- 補助用(任意):雰囲気や要素を補足するための素材
たとえば、リアルな日本の街並みに、アニメ調のキャラクターが登場する映像を生成したい場合、次のように役割を分けて参照画像を用意する。
【参照画像】
プロンプト:昼の日本の街中。現実の街並みを写したような映像。 その中を、VTuberのようなアニメ調の女の子が歩いている。 キャラクターはアニメ的な質感で、背景のリアルな街とは見た目が異なる。 街の環境音と、足音が聞こえる。
— tagkaz_ascii (@tagkaz_ascii) January 26, 2026
参照画像は、完成形をそのまま再現させるための素材ではない。どの要素を重視してほしいのか、どこまでをAIに委ねるのかを示すヒントとして使うと、結果をコントロールしやすい。
音の扱い:環境音を優先する
音についても同じで、台詞の正確さを狙うより環境音の整合性を優先したほうが安定しやすい。風の音や街のざわめきなど、場面を成立させる音を先に置くと外れにくい。
Veo 3.1は「短尺素材」を作る道具
Veo 3.1は、長編映像を一気に作るための万能な動画生成AIではない。最大8秒という短尺に割り切り、映像と音を含めたワンシーン素材を安定して供給することに特化している。その設計思想は、完成映像を生成するより、編集前提の素材をいかに素早く用意できるかに置かれている。
Geminiで手早く試し、必要に応じて編集工程へ組み込む。完成形を一発で作らせるのではなく、短尺素材を複数生成し、選び、差し替える。この使い方を前提にすると、Veo 3.1は実験用途にとどまらず、制作フローの一部として現実的に組み込める存在として見えてくる。
動画生成AIという言葉から想像しがちな「一本の映像を丸ごと作る道具」ではなく、「編集可能な断片を供給するエンジン」として捉えること。そう捉えると、Veo 3.1の強みと限界の両方が、過不足なく理解できる。

1969年生まれ。ウェブサイト制作会社から2003年に独立。雑誌、書籍、ウェブサイト等を中心に、ソーシャルメディア、クラウドサービス、スマートフォンなどのコンシューマー向け記事や、企業向けアプリケーションの導入事例といったエンタープライズ系記事など、IT全般を対象に幅広く執筆。2019年にはタイのチェンマイに本格移住。
新刊:発売中「生成AI推し技大全 ChatGPT+主要AI 活用アイデア100選」、:https://amzn.to/3HlrZWa

この連載の記事
-
第38回
AI
最新の画像生成AIは“編集”がすごい! Nano Banana、Adobe、Canva、ローカルAIの違いを比べた -
第37回
AI
画像生成AIで比較!ChatGPT、Gemini、Grokどれを選ぶ?得意分野と使い分け【作例大量・2025年最新版】 -
第36回
AI
【無料で軽くて高品質】画像生成AI「Z-Image Turbo」が話題。SDXLとの違いは? -
第35回
AI
ここがヤバい!「Nano Banana Pro」画像編集AIのステージを引き上げた6つの進化点 -
第34回
AI
無料で始める画像生成AI 人気モデルとツールまとめ【2025年11月最新版】 -
第33回
AI
初心者でも簡単!「Sora 2」で“プロ級動画”を作るコツ -
第32回
AI
【無料】動画生成AI「Wan2.2」の使い方 ComfyUI設定、簡単インストール方法まとめ -
第31回
AI
“残念じゃない美少女イラスト”ができた! お絵描きAIツール4選【アニメ絵にも対応】 -
第30回
AI
画像生成AI「Midjourney」動画生成のやり方は超簡単! -
第29回
AI
創作のプロセスを激変させる画像生成AI「Midjourney V7」の使い方 ドラフトモード、パーソナライズ機能に大注目 - この連載の一覧へ







