動画生成AIの進化がすごい　「超リアル」「ローカルで動く」2つの方向に

2025年03月10日 07時00分更新

文● 新清士

ローカルで動かせる動画生成AI「Wan 2.1」が高性能

　一方で、クラウドサービス中心に広がっていた動画AIの世界ですが、中国の大手AI企業からオープンソースモデル（正確にはオープンウェイトモデル）の公開が相次ぎ、ローカルPC上での動画AIが大きな盛り上がりを見せ始めています。動画AIではt2vよりもi2vの方がコントロール性を高めることから、より重要であることは何度も述べていますが、各社ともi2vモデルを強く意識して展開しています。

　特に、2月25日に公開されたアリババの「Wan 2.1」と、6日に公開されたテンセントの「HunyuanVideo i2v（フンユエン）」は、性能的にも高く、真っ向からぶつかっています。また、2月20日にはシンガポールのSkyworkが、HunyuanVideoにハリウッド映画などを追加学習して作成した「SkyReels-V1」というオープンモデルも登場しており、高性能なローカルモデルが次々に登場してきています。

　各社とも、自社のクラウドサービスでも展開していますが、レンタルサーバー用のAPIサービスも同時に提供し、さらにはローカルPC用の専用モデルも公開しており、それらは画像生成AIツール「ComfyUI」の環境にダウンロードして使うことができます。

SkyReels-V1の作例

▲明日来子さんの静止画からのi2v。プロンプトによる影響の可能性はあるが、動きは小さめ。480pの生成時間は6分程度。

HunyuanVideo i2vの作例

▲明日来子さんの静止画からのi2v 720pの作例。2秒x2回。最初の画像にノイズが乗るのと、若干白飛びしているのが気になるが、きちんと動いている。生成時間は各12～14分程度。

　この中で、特に性能の高さを評価されているのがWan 2.1です。

　Wan 2.1は公開されているモデルは4種類あり、t2vの480P（854x480）と720P（1280x720）に対応したT2V-14B（14Bはパラメーター数を示す140億パラメータという意味）、i2vの720pと480pにそれぞれ対応したもの。さらにはVRAM 8GBでも動作させることができる軽量版のT2V-1.3Bの4種類です。14Bのi2vモデルはいずれも、32.8GBを超える大型モデルですが、ComfyUIがすでに公式サポートしており最適化がなされています。サンプルワークフローを使うことで、いずれのモデルも筆者のNVIDIA RTX 4090（VRAM 24GB）搭載PCでは動作を確認しました。

Wan 2.1、Githubのページでのモデル紹介。ComfyUIの公式サポートのリンクをたどってダウンロードするほうが混乱は少ないだろう。また、量子化（軽量化）することでより少ないVRAMでも動作する16.4GBにしたi2vモデルも公開されている

ComfyUIのI2V-14B-480P用のワークフロー。かなりシンプルで設定で迷うことはほとんどない

　I2V-14B-480Pを公式のワークフローを明日来子さんで試したところ、2秒間の生成に約10分程度の時間がかかりました。ローカル上でこれほどの水準の動画が動いているのは、なかなかではないかと思います。I2V-14B-720Pの場合は、画質は向上しますが、生成にかかる時間は約12～14分と伸びます。Wan 2.1は軽量化のためかフレームレートが16fpsに最適化されているためか、生成される結果が早送りのような動画ができたりするのですが、それなりに動いてくれます。

　ローカルのものとしては、かなり品質は高いと言えますが、動きが的確に成績されないケースも生まれることもあります。速く動きすぎたり、顔などが崩れたりというものです。失敗と成功の比率は五分五分といったところで、クラウドサービスに比べると失敗率は高い印象です。そして、十数分待って失敗というのは、なかなかがっくりするものがあります。