Stability.ai、1枚の画像から破綻のない3Dオブジェクトを生成できる「Stable Video 3D」公開

2024年03月19日 18時05分更新

文● 田口和裕

　Stability.aiは3月19日、一枚の画像から高品質な3Dモデルを生成できるAIモデル「Stable Video 3D（SV3D）」を公開した。商用利用の場合のみ月額20米ドル（およそ3000円）のStability AIメンバーシップへの加入が必要となる。

動画生成AI「Stable Video Diffusion」をベースに開発

Stable Video Diffusion に基づく新しい生成モデル、Stable Video 3D をリリースしました。このモデルは、3D技術の分野を進歩させ、品質とマルチビューを大幅に向上させます。

詳細はこちらをご確認ください。https://t.co/1WhHaSv6A5 pic.twitter.com/VwraKaOFCd
— Stability AI Japan (@StabilityAI_JP) March 18, 2024

　SV3Dは、1枚の画像を入力するだけで、その画像内のオブジェクトを様々な角度から撮影したかのような「マルチビュー画像」を生成し、それを元に3Dモデルを作成することができる。

　3Dモデルの作成には通常、多数の画像や3Dスキャンデータ、専門的な知識が必要とされるが、SV3Dは1枚の画像から形状や質感、影の付き方まで元の画像を再現した3Dモデルを自動で生成する。

　「SV3D_u」および「SV3D_p」の2つのモデルが用意されており、前者は単一の画像からオブジェクトを360度回転させた3D動画を、後者は単一の画像に加えてカメラの軌道情報を入力として受け取り、指定されたカメラパスに沿った3D動画を作成できる。

　SV3Dのベースとなっているのは、ビデオ生成に特化したAIモデル「Stable Video Diffusion（SVD）」だ。

　これまでの多数派である画像生成AIをベースにしたアプローチでは、個々の画像の品質は高いものの、複数の画像間の一貫性を保つのが難しいという課題があった。

　SV3DはSVDの持つ時間的一貫性を3Dオブジェクトの空間的一貫性に応用することで、この課題を解決。入力画像のオブジェクトを様々な角度から見た画像を、一貫性を保ちながら生成することができるという。

SV3Dのパイプライン

　SV3Dは大きく分けて2つのステップで3Dモデルを生成する。

　まず、ビデオ生成AIであるStable Video Diffusion（SVD）をベースにした手法を用いて、入力画像からマルチビュー画像を生成する。これは「Novel Multi-view Synthesis（NVS）」と呼ばれるステップだ。

　次に、このマルチビュー画像を使って3Dモデルを最適化する。この3D Optimizationと呼ばれるステップでは、Neural Radiance Fields（NeRF）とDifferentiable Marching Tetrahedral Meshes（DMTet）という2つの3D表現技術が用いられる。

　最終的に、このパイプラインを通して、入力画像から最適化された高品質な3Dメッシュ（形状、テクスチャ、照明）が生成される。

　ここで言う3Dメッシュとは、高品質な3Dモデルのことを指し、「Maya」「3ds Max」「Blender」「Unity」など、ほとんどの一般的な3Dソフトウェアにインポートして使用することができる。

　なお、利用できるフォーマットは「OBJ」「PLY」「glTF」の3種だ。