動画生成AIはさらに爆発的な発展へ
Wan 2.1は応用の範囲が非常に広いことを示し始めています。2023年7月に発表された「AnimateDiff」は、16コマ2秒の動画を、わずかにしか動かすことができない技術でした(参考:アニメの常識、画像生成AIが変える可能性「AnimateDiff」のすごい進化)。しかし、それから20ヵ月で、現実のアニメーション制作の動画過程を補える可能性が出てきています。VRAMの容量内に収めるためには、生成できる動画は5秒と限界を抱えてはいるのですが、着実に課題を乗り越えています。
Wanの技術レポート(arxivのリンク)
3月28日に公開されたWan 2.1のテクニカルレポートでは、開発の背景として3つの課題が挙げられています。1つ目は、商用モデルに比べて性能が不十分であること。2つ目は、多くのオープンモデルがt2v(テキストから動画生成)にとどまり、ビデオ制作のニーズに十分応えられていないという機能面の制約。3つ目は、大規模なモデルがあまりに重く、限られた計算リソースしか持たない制作チームには扱いが難しいという効率面の課題です。Wan 2.1は、これらの課題を解決することを目指して開発されたといいます。
Wan 2.1は、Stable Diffusionの登場以来使われてきた「拡散モデル」を拡張して、時間軸の情報も含めて学習させる方法論を発展させてきたと説明されています。その中核となるテクノロジーは、オープンソースコミュニティから登場してきたものであるとしています。
そして、何十億もの動画と画像を収集し、そこから様々な評価をして、高品質で多様性のある数百万種からなるデータセットを作成し、学習をしたようです。一方で、結論として、「大きな動きがあるシーンでの細部の制御が難しい」ことを課題としてあげています。また、14Bモデルのサイズでは生成に時間がかかるという課題もあげており、「動画生成を民主化し、高度なAIツールをより幅広く利用可能にするためには、最新かつ最適化された実装をオープンソース化するなどして、この制約に対処する取り組みが欠かせません」とも述べており、オープン化を通じた技術開発の加速化は必須としています。
コミュニティーが技術革新を引っ張るようになると、企業単独のサービスでは思いつかなかったような使われ方が発見されることもあります。Stable Diffusionが爆発したたように、動画AIの世界でも、Wan 2.1の登場により、予想もされなかったような技術発展の登場が期待できます。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ






