Nano Banana Proで作成した当連載登場モデルの明日来子さん。2024年1月に1枚の画像から始まった彼女は、ついに自由に服もポーズも登場場所も変えられるようになった（筆者作成）

今回のテーマは、2025年の画像・動画生成AIまとめです。2023年に誰でも利用可能な形で登場した画像AI、動画AIは、ついに長年の課題だった“一貫性の壁”を突破しました。シーンや状況を変えても、登場人物の顔や服装に連続性を保ったまま、表現を変えたり、別の服装にしたり、角度を変えたりといったことが容易にできるようになってきました。8月に発表されたグーグルの「Nano Banana」、それをさらに上回る性能の11月の「Nano Banana Pro」が最大級の驚きでした。画像AIではバイトダンス「Seedream」、アリババ「Qwen-Image-Edit-2509」などが、動画AIではOpenAI「Sora2」やxAI「Grok Imagine」、「Kling」、「Wan」などで、一貫性をテーマにAI各社が激しく競争を続けた1年間でした。

ローカル、クラウドともに動画生成AIが発展

動画生成AIについては1年前の2024年12月、テンセント「Hunyuan Video」がリリースされたことで「使い物になるかもしれない」という雰囲気が出てきました。今では若干微妙な品質に見えてしまいますが、当時はこれでもローカル環境で動かせるモデルとしては、人体の破綻が少ないものでした。ローカルモデルらしく、追加学習（LoRA）でアダルト動画が大量に作られるようになったことも注目を集めることになりました。（参考：動画生成AI、ついにアダルトの扉が開く）

△Hunyuan Videoで生成した水着の女性の動画

その後、2025年3月にグーグル「Veo 2」、さらに6月には「Veo 3」が発表されて、その水準に驚かされました。2024年12月にリリースされたOpenAIの「Sora」の品質が期待外れであったこともあり、評価を集めました。ラーメンを食べるといった表現は、人物と対象物とが複雑に重なり合うような構図でさえも、自然に生成できるようになりました。ただし、当初は柔軟性が低かったことと、値段の高さがネックになりました。

また、同時期に注目されていたのが「KlingAI」で、現在でも、クラウド系動画AIサービスを引っ張る中心的な存在の一つです。（参考：動画生成AIの進化がすごい 「超リアル」「ローカルで動く」2つの方向に、グーグルの動画生成AI「Veo 3」が圧倒的、だけど高すぎ）

△Veo 2、Sora、Kling 1.6を比較した動画

△Veo 3で生成したラーメンを食べる日本人女性の動画