このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第100回

動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び

2025年03月31日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

動画生成AIはさらに爆発的な発展へ

 Wan 2.1は応用の範囲が非常に広いことを示し始めています。2023年7月に発表された「AnimateDiff」は、16コマ2秒の動画を、わずかにしか動かすことができない技術でした(参考:アニメの常識、画像生成AIが変える可能性「AnimateDiff」のすごい進化)。しかし、それから20ヵ月で、現実のアニメーション制作の動画過程を補える可能性が出てきています。VRAMの容量内に収めるためには、生成できる動画は5秒と限界を抱えてはいるのですが、着実に課題を乗り越えています。

Wanの技術レポート(arxivのリンク

 3月28日に公開されたWan 2.1のテクニカルレポートでは、開発の背景として3つの課題が挙げられています。1つ目は、商用モデルに比べて性能が不十分であること。2つ目は、多くのオープンモデルがt2v(テキストから動画生成)にとどまり、ビデオ制作のニーズに十分応えられていないという機能面の制約。3つ目は、大規模なモデルがあまりに重く、限られた計算リソースしか持たない制作チームには扱いが難しいという効率面の課題です。Wan 2.1は、これらの課題を解決することを目指して開発されたといいます。

 Wan 2.1は、Stable Diffusionの登場以来使われてきた「拡散モデル」を拡張して、時間軸の情報も含めて学習させる方法論を発展させてきたと説明されています。その中核となるテクノロジーは、オープンソースコミュニティから登場してきたものであるとしています。

 そして、何十億もの動画と画像を収集し、そこから様々な評価をして、高品質で多様性のある数百万種からなるデータセットを作成し、学習をしたようです。一方で、結論として、「大きな動きがあるシーンでの細部の制御が難しい」ことを課題としてあげています。また、14Bモデルのサイズでは生成に時間がかかるという課題もあげており、「動画生成を民主化し、高度なAIツールをより幅広く利用可能にするためには、最新かつ最適化された実装をオープンソース化するなどして、この制約に対処する取り組みが欠かせません」とも述べており、オープン化を通じた技術開発の加速化は必須としています。

 コミュニティーが技術革新を引っ張るようになると、企業単独のサービスでは思いつかなかったような使われ方が発見されることもあります。Stable Diffusionが爆発したたように、動画AIの世界でも、Wan 2.1の登場により、予想もされなかったような技術発展の登場が期待できます。

 

筆者紹介:新清士(しんきよし)

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。

前へ 1 2 3 4 5 次へ

カテゴリートップへ

この連載の記事
ピックアップ