このページの本文へ

新清士の「メタバース・プレゼンス」 第98回

動画生成AIの進化がすごい 「超リアル」「ローカルで動く」2つの方向に

2025年03月10日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

ローカルで動かせる動画生成AI「Wan 2.1」が高性能

 一方で、クラウドサービス中心に広がっていた動画AIの世界ですが、中国の大手AI企業からオープンソースモデル(正確にはオープンウェイトモデル)の公開が相次ぎ、ローカルPC上での動画AIが大きな盛り上がりを見せ始めています。動画AIではt2vよりもi2vの方がコントロール性を高めることから、より重要であることは何度も述べていますが、各社ともi2vモデルを強く意識して展開しています。

 特に、2月25日に公開されたアリババの「Wan 2.1」と、6日に公開されたテンセントの「HunyuanVideo i2v(フンユエン)」は、性能的にも高く、真っ向からぶつかっています。また、2月20日にはシンガポールのSkyworkが、HunyuanVideoにハリウッド映画などを追加学習して作成した「SkyReels-V1」というオープンモデルも登場しており、高性能なローカルモデルが次々に登場してきています。

 各社とも、自社のクラウドサービスでも展開していますが、レンタルサーバー用のAPIサービスも同時に提供し、さらにはローカルPC用の専用モデルも公開しており、それらは画像生成AIツール「ComfyUI」の環境にダウンロードして使うことができます。

SkyReels-V1の作例

▲明日来子さんの静止画からのi2v。プロンプトによる影響の可能性はあるが、動きは小さめ。480pの生成時間は6分程度。

HunyuanVideo i2vの作例

▲明日来子さんの静止画からのi2v 720pの作例。2秒x2回。最初の画像にノイズが乗るのと、若干白飛びしているのが気になるが、きちんと動いている。生成時間は各12~14分程度。

 この中で、特に性能の高さを評価されているのがWan 2.1です。

 Wan 2.1は公開されているモデルは4種類あり、t2vの480P(854x480)と720P(1280x720)に対応したT2V-14B(14Bはパラメーター数を示す140億パラメータという意味)、i2vの720pと480pにそれぞれ対応したもの。さらにはVRAM 8GBでも動作させることができる軽量版のT2V-1.3Bの4種類です。14Bのi2vモデルはいずれも、32.8GBを超える大型モデルですが、ComfyUIがすでに公式サポートしており最適化がなされています。サンプルワークフローを使うことで、いずれのモデルも筆者のNVIDIA RTX 4090(VRAM 24GB)搭載PCでは動作を確認しました。

Wan 2.1、Githubのページでのモデル紹介。ComfyUIの公式サポートのリンクをたどってダウンロードするほうが混乱は少ないだろう。また、量子化(軽量化)することでより少ないVRAMでも動作する16.4GBにしたi2vモデルも公開されている

ComfyUIのI2V-14B-480P用のワークフロー。かなりシンプルで設定で迷うことはほとんどない

 I2V-14B-480Pを公式のワークフローを明日来子さんで試したところ、2秒間の生成に約10分程度の時間がかかりました。ローカル上でこれほどの水準の動画が動いているのは、なかなかではないかと思います。I2V-14B-720Pの場合は、画質は向上しますが、生成にかかる時間は約12~14分と伸びます。Wan 2.1は軽量化のためかフレームレートが16fpsに最適化されているためか、生成される結果が早送りのような動画ができたりするのですが、それなりに動いてくれます。

 ローカルのものとしては、かなり品質は高いと言えますが、動きが的確に成績されないケースも生まれることもあります。速く動きすぎたり、顔などが崩れたりというものです。失敗と成功の比率は五分五分といったところで、クラウドサービスに比べると失敗率は高い印象です。そして、十数分待って失敗というのは、なかなかがっくりするものがあります。

▲Wan 2.1 I2V-14B-480Pの作例。4秒x2回、5秒x2回。いずれも明日来子さんの画像から、「笑いながら、歩き出す」とプロンプトに入れている。生成には12~14分の時間がかかっている。5秒ぐらいに限界があり、VRAMを溢れ始めると生成時間は30分近くに伸びる。

カテゴリートップへ

この連載の記事
ピックアップ