NVIDIAの研究機関Toronto AI Labは12月21日(現地時間)、テキストから動的な4D(3次元+時間)アニメーションを生成する技術「Align Your Gaussians(以下AYG)」を発表した。
Nvidia just announced Align Your Gaussians
— AK (@_akhaliq) December 21, 2023
Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models pic.twitter.com/osgfjqKmtO
3Dガウス分布情報から3D画像を生成
初期の3Dステージでは、最適化された3Dガウス分布(3次元空間内でデータの分布をモデル化するための統計手法)を使用し、「Stable Diffusion(Txt 2 Img)」と「MVDream(Txt 2 Multiview-Image)」の2つのモデルを活用し、3D画像(静止画)を生成する。
時間的ダイナミクスを追加
次の4D合成ステージでは、前ステージで生成された3D画像を元に変形フィールドを最適化することで時間的ダイナミクスを生成し、それによって動いて変形するダイナミック4Dアセットを生成するという。
使いやすい4Dアセットを大量生産
完成した4D動画は完全にループしており、固定カメラ・移動カメラの2種類の視点でレンダリングされる。
テキストプロンプトを変更することによって、同じキャラクターに別の動きをとらせることも可能だ。
このように大きなシーンで複数の合成されたダイナミックな4Dアセットを動かすことも簡単にできるという。
NVIDIAは論文で「この技術がアニメーション、シミュレーション、デジタルコンテンツ制作、合成データ生成などの新しい分野での応用を開くこと」を期待するとともに「動的4Dシーンを正確なトラッキングラベルと共に生成する技術は合成データ生成において重要なものになる可能性がある」としている。