このページの本文へ

新清士の「メタバース・プレゼンス」 第119回

無料の動画生成AI「Wan2.2」が凄すぎる PCローカルでこの品質が出せるとは

2025年08月11日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

14Bモデルも軽量化・高速化で扱いやすく

 とはいえ、14Bは元のサイズが非常に大きく、HighモデルとLowモデルがそれぞれ約57GBもあり、合計すると約114GBにも達します。そのため、筆者のNVIDIA RTX 4090(VRAM24GB)のローカルPC環境であっても、ロードするデータ量がVRAMからあふれかえり、メモリがスワップしてしまいます。当初の公式ワークフローの環境では、4秒の動画を生成するために80分もかかってしまいました。そのため、リリース直後はとても使い物にならないという印象でした。

 ただ、ユーザーにより、14Bのデータを量子化してファイルサイズの圧縮が図られたGGUFファイルがすぐ登場しました。筆者が利用している14B Q4は(Qは量子化の圧縮率を示す)モデルは、それぞれが約9GBとなるため、合計で約16GBとなり、他のファイルも含めて480pのサイズの生成であれば、RTX 4090のVRAMサイズにギリギリ収まります。

 さらに、高速化技術「Lightx2v」のWan2.2対応版LoRAも登場しました。この技術は、北京航空航天大学といった中国の研究者や、中国の主要AI研究機関の一つ商湯科技研究院(SenseTime Research)開発者を中心に開発されている高速化のオープンソースフレームワーク「ModelTC」の1つです。効率的な生成を可能にする蒸留技術を組み合わせ、劇的な高速化を実現します。

 Light2XVは、Wan2.2の動画生成には40~50回(ステップ)の生成プロセスを必要としますが、それをわずか4~6ステップまで短縮します。ステップの多さは、そのまま生成にかかる時間に直結します。GGUFファイルを導入し、LoRAとしてLight2XVを導入し、生成サイズを832x480にすることで、RTX 4090のローカルPCで4秒の生成にかかる時間は3分を切るまで短くなります。ステップ数を減らすことは、動画の大きな動きの抑制が起こりがちになるという弱点もあるのですが、圧倒的な扱いやすさは、それらを補うに余りあるものです。

カテゴリートップへ

この連載の記事
ピックアップ