このページの本文へ

新清士の「メタバース・プレゼンス」 第119回

無料の動画生成AI「Wan2.2」が凄すぎる PCローカルでこの品質が出せるとは

2025年08月11日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

140億パラメータの「14B」が圧倒的

 Wan2.2は、140億パラメータの14B(ファイルサイズ合計は約126GB)と、50億パラメータの5B(ファイルサイズ合計は約34GB)の2種類が公開されています。どちらも、AI生成の定番アプリの「ComfyUI」が正式サポートしており、環境を整えてくれるテンプレートが用意されています。5Bは小さなサイズのVRAMでも動作する軽量タイプです。ただ、性能を比べると14Bの方が圧倒的に高いです。

△Wan2.2 i2v 5BのComfyUIのワークフローのデフォルト設定で生成した動画。プロンプトは「地下鉄でギターを弾いている」。特に後ろの人に注目すると人体の描写が不自然だ

 Wan2.2はWan2.1に比べて、動画の学習データをWan2.1のときから83.2%増、画像データは65.6%増と学習データの量が大幅に増えています。

 さらにWan2.2は、特徴的な生成方法を持っています。生成段階の初期のノイズが荒い状態を生成する「Highモデル」と、その結果を引き継いで品質を引き上げる「Lowモデル」の二段階で生成する仕組みです。これを「MoE(Mixture of Experts:混合専門家モデル)アーキテクチャーを採用している」と説明しています。この方式のメリットは、140億パラメータのウェイトモデルを2種組み合わせることで、280億パラメーター相当の大規模な推論を実現しながらも、モデルを2種類に分けることで、合計のファイルサイズを小さくできることです。これにより、VRAMの搭載量が少ないローカルPC上での動作を実現するわけです。

中央の図では、Wan2.2の特徴であるHigh Model(赤)とLow Model(青)による動画の生成過程を説明している。時間は右から左に流れ、左上に近づくほど精度が上がっていく(Wan2.2の発表のプレゼンテーションより)

データ構成の変化。Wan2.1に比べてビデオは83.2%、イメージは65.6%増やしたという。また、ライトの向きや時間変化、色味調整なども学習されている(Wan2.2の発表のプレゼンテーションより)

カテゴリートップへ

この連載の記事
ピックアップ