画像生成AIモデル「Stable Diffusion」などを開発するStability AIが現地時間7月25日、1つの動画から8つの異なるアングルの動画を生成できる動画生成AI「Stable Video 4D」を発表した。現在は研究段階にあり、AIプラットフォーム「Hugging Face」で利用可能。
We are pleased to announce the availability of Stable Video 4D, our very first video-to-video generation model that allows users to upload a single video and receive dynamic novel-view videos of eight new angles, delivering a new level of versatility and creativity.
— Stability AI (@StabilityAI) July 24, 2024
In… pic.twitter.com/1YbI2W514K
Stable Video 4Dは、ユーザーがアップロードした1本のオブジェクトビデオから、新たに8つの異なる視点からの動画を生成するモデル。Stability AI初のvideo-to-video(動画→動画)生成モデルとなる。
生成速度は5フレームであれば約40秒程度だが、最適化には約20〜25分が必要(公称数値、環境は不明)。カメラアングルを指定して、出力を調整することもできる。
Stable Video 4Dの基盤となっているのは、画像を動画に変換する「Stable Video Diffusion(SVD)」モデル。Stable Video 4DはSVDが生成した動画を入力として受け取り、異なる視点から複数の新しいアングルの動画を生成する仕組みだ。
将来的にはゲーム開発、動画編集、バーチャルリアリティなどの分野での活用が期待されている。Stability AIは今後もモデルの改良に積極的に取り組み、より幅広い実世界の動画を扱えるよう最適化を進めていく方針。