動画生成AI「Wan2.2」の進化が凄い　アリババが無料AIモデルの牽引者に

2025年09月01日 07時00分更新

文● 新清士

Wan2.2 S2Vを使って歌うアイドルの様子を生成した動画の一コマ（筆者作成）

　アリババのAIモデルの発表攻勢が続いています。動画生成AI分野では、7月末に発表した「Wan2.2」に続き、8月中旬に画像や動画を参考にしながら制御を可能にする派生モデルの「Wan 2.2 Fun Control」、さらに、8月27日には音声と画像から動画を生成する「Wan2.2 S2V」をリリース。いずれも性能の高さを保ちながら、オープンモデルとして公開されており、量子化（圧縮）モデルであれば、ローカルPC上でも動かすことができるのが魅力的です。それぞれのツールの持つ実力を試しました。

FunControl：参照動画で“動き”を精密制御

　Wan 2.2 Fun Controlは、人物やキャラクターの画像と動画情報をリファレンス情報として入力すると、ControlNetの輪郭線（Canny）、深度（Depth）、ポージング（OpenPose）、さらに軌道制御（Trajectory Control）の情報に合わせて、キャラクターを動かせます。

　Wan2.2はすでに最初と最後の画像を合わせるようにする機能（FLF2V）に対応しているのですが、それでも、その間を補完する動きは当然ランダムになります。しかし、動画を参照できれば、その動きを正確にトレースしてくれるため、精度が上がるわけです。前の世代のWan2.1でも同様のものがありましたが、Wan2.2版ではさらに品質面でも改善がありました。同様のことが容易にできる動画AIモデルは現状存在していないため、かなりユニークな存在と言えます。（参考: 「無料の動画生成AI「Wan2.2」が凄すぎる　PCローカルでこの品質が出せるとは」）

▲FunControlでこの連載での作例モデル「明日来子さん」にダンスをしてもらったもの

▲FunControlの動画の役割。右が元のリファレンス動画、それをOpenPoseが検出したのが中央

　SNSでは現在、ダンス系動画をリファレンス動画とし、OpenPoseでポーズを抽出して作成した動画の投稿が見られます。OpenPoseは人間の動きを検出して、棒人間のように手や身体の位置を検出してくれる仕組みで、リファレンス画像と組み合わせると、姿はまったく違うのに動きはその画像と同様のものを作り出すことができるため、効果が大きいのです。

　Midjourneyでダンス動画を作成し、それを参照させたのが以下です。筆者のNVIDIA RTX 4090を搭載したローカルPCで、640x832の8秒の動画を生成するのに約10分かかりました。

　ダンス動画以外でも、自分自身をウェブカメラで撮影し、それを反映させることもできます。指定の動きを反映させたいときには魅力的な環境と言えるでしょう。

　ローカルで動作するには高いPCスペックを要求します。公式モデルは、Wan2.2と同様にVRAM 80GBが必要なため、そのままではローカルPCでは動作しません。そのため、ComfyUIが公開した対応ワークフローでは「Wan2.2 14B Fun Control fp8」と量子化（圧縮化）されたバージョンが使われています。容量は約16.6GBで、動作させるには、現実的にはRTX 4090以上のVRAM 24GB以上が推奨されています。また、生成を高速化する「LightX2V Lora」も基本的にセットです。筆者の環境では、基本環境の640x640で10秒程度の動作が限界でした。

　ただし、任意のフレームを平均化する「Sliding Context」という方法論を使うことで、計算時間は長くなりますが、2分間という長時間動画の生成を実現する方法が出ています。このSliding Contextを含めて統合したクラウドサービスも登場しており、シンガポールのWaveSpeedAIは5秒につき0.2ドル（約30円）で、最大2分間の動画生成ができることをアピールしています。試してみたところ品質の高い動画が作成できました。

▲WaveSpeedAIのFunControlで生成した動画。下がリファレンスとした動画（ロイヤリティーフリー動画を利用）。サイズが844x474の26秒で、約1.05ドル（約160円）。生成時間は約5分。音楽はSunoで作成

▲WaveSpeedAIのFunControlをアニメ画像で生成してみた。リファレンス動画は同様。若干後ろ姿は失敗している

　もちろん弱点はあり、FunControlが参照できる画像は、一度に1枚のみです。三面図を読み込ませて、リファレンスとするようなことはできません。筆者も試してみたのですが完全に無視されてしまいました。そのため、参照画像は通常は正面のキャラクター画像となり、キャラクターが回転して背面が見えると一貫性が維持できなくなり、毎回デザインが変わるようなことが起きたりします。

　ただ、それを差し引いても使い勝手のよい環境と言えるでしょう。

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ