このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第100回

動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び

2025年03月31日 07時00分更新

文● 新清士

  • お気に入り
  • 本文印刷

 アリババグループの通義研究所が2月にオープンモデルとして公開した動画生成モデル「Wan 2.1」の性能がめちゃめちゃ高いことがわかってきました。一貫性が高く、また、柔軟性も高く、LoRAといった追加学習データとも組み合わせても、素直にデータを反映するとの評価が高まっています。ユーザーが技術開発に関わることで、多数の新しい表現の可能性を模索する動きが登場しつつあります。ローカル環境で動かす動画AIでは、商用クラウド並の水準の動画が作れないという常識がひっくり返され、動画生成AIにStable Diffusion登場時に近いようなインパクトをもたらしつつあります。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

圧倒的に性能が高い「Wan 2.1」の衝撃

▲ファンタジー風の戦車を動かしている動画

 Wan 2.1の性能の高さを物語るのが、この動画です。ファンタジー風の戦車を描いた1枚の画像を、前進させ、砲撃させ、果ては、方向を変えさせています。もちろん完全ではない部分はありますが、キャタピラーや車輪の動き、さらには戦車の向きを変えても一貫性が維持されています。戦車を描いた1枚のイラストを入れるだけでもしっかり動いており、筆者の印象では、これまで公開されたどのローカル動画生成AIモデルよりも性能が高いように感じられます。これまでローカル用動画モデルの品質が低いという常識が覆されています。

 いつも作例として登場する明日来子さんの動画も作ってみました。笑ってみたり、軽く歩いてみたり、ダンスしてみたりと、適当なプロンプト指定で動作させています。また、一度作成した動画は、後述のキーフレーム機能を使って、つなぎの動画を作成しています。筆者のNVIDIA RTX 4090のローカルPC環境では704x528の5秒の動画を生成するのに約8分かかります。全体では、9種の動画を生成しつないでいます。

▲明日来子さんのAI動画もローカルPCでここまで作れるようになってきた

前へ 1 2 3 4 5 次へ

カテゴリートップへ

この連載の記事
ピックアップ