このページの本文へ

新清士の「メタバース・プレゼンス」 第100回

動画生成AI、革命の兆し 「Stable Diffusion」級の衝撃再び

2025年03月31日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

2点間を補完する「キーフレーム」機能も実現

 リリース直後のWan 2.1のi2vには、始点と終点の画像を指定できるキーフレーム機能が搭載されていませんでした。この機能があれば、指定した2枚の画像の間を自動的に補完してくれるため、動画の内容をより自在にコントロールできるようになります。3月19日にraindrop313さんという方が、現在のモデルでも動作させる方法を発見して公開。翌日にはKjiaiさんが高速化を施したモデルへの対応したワークフローを公開し、動作するようになりました。さらに、Zuntanさんが開発する「EasyVideoWan」では、それらの新規機能を組み込んだワークフローも追加され、使いやすくなってきています。

 明日来子さんのつなぎは、実際にこのキーフレーム機能を使い、違う結果の画像をつないだ動画を作成することで、連続した動画として見せるようにしています。

キーフレーム機能に対応したZuntanさんのEasyVideoWanのワークフローの一部。様々な機能や設定が追加されており、ComfyUI初心者でも比較的扱いやすい。NVIDIA RTX 3060といったVRAMが少ないものでも動作するという

 さらに、TDSさんは独自のスクリプトで、最初と最後だけでなく、途中に画像を挟んでもなお、動作することを紹介しており、Wan 2.1の持つ柔軟性が明らかになっています。複数のフレームを指定する汎用的なワークフローは登場していませんが、一般化は進むと考えられます。

▲TDSさんが実験している複数画像指定による動画生成

 その後、アリババは、3月26日に、キーフレームに対応した「Wan2.1-Fun-1.3B/14B-InP」を正式にリリースしました。ただ、49GBもある大型モデルということもあり、ユーザー開発の修正版よりも使いやすい環境とは言えず、まだ広がってはいません。一方で、さらに興味深いモデル「Wan2.1-Fun-1.3B/14B-Control」も合わせてリリースされました。このモデルにはControlNetが最初から組み込まれており、線画(Canny)や深度(Depth)などの対応した動画を入力データとして使うと、その情報を利用できるという能力を持っています。すぐにKjiaiさんが高速化版もリリースされました。

 アーティストの852話さんは、この制御を実現するワークフローをいち早く公開しました。このワークフローでは、入力した動画をControlNetの入力情報として認識し、さらに1枚目の画像を指定することで、それに合わせた動画を生成できます。たとえば白黒の動画であれば、最初の1枚に基づいて着彩をすることが可能です。また、線画だけの簡易的なアニメーションでも、不足している情報を補完しながら着彩してくれます。

▲852話さんのワークフローを使った作例。上が入力画像、中央が入力動画、下が出力結果。動画を参考に着彩されている(ワークフローへのリンク

▲852話さんのワークフローを使った作例。同じく、上が入力画像、中央が入力動画、下が出力結果。別の色で塗られた画像を参照すると、違う結果を生み出しているのがわかる。

カテゴリートップへ

この連載の記事
ピックアップ