Stability.aiは3月19日、一枚の画像から高品質な3Dモデルを生成できるAIモデル「Stable Video 3D(SV3D)」を公開した。商用利用の場合のみ月額20米ドル(およそ3000円)のStability AIメンバーシップへの加入が必要となる。
動画生成AI「Stable Video Diffusion」をベースに開発
Stable Video Diffusion に基づく新しい生成モデル、Stable Video 3D をリリースしました。このモデルは、3D技術の分野を進歩させ、品質とマルチビューを大幅に向上させます。
— Stability AI Japan (@StabilityAI_JP) March 18, 2024
詳細はこちらをご確認ください。https://t.co/1WhHaSv6A5pic.twitter.com/VwraKaOFCd
SV3Dは、1枚の画像を入力するだけで、その画像内のオブジェクトを様々な角度から撮影したかのような「マルチビュー画像」を生成し、それを元に3Dモデルを作成することができる。
3Dモデルの作成には通常、多数の画像や3Dスキャンデータ、専門的な知識が必要とされるが、SV3Dは1枚の画像から形状や質感、影の付き方まで元の画像を再現した3Dモデルを自動で生成する。
「SV3D_u」および「SV3D_p」の2つのモデルが用意されており、前者は単一の画像からオブジェクトを360度回転させた3D動画を、後者は単一の画像に加えてカメラの軌道情報を入力として受け取り、指定されたカメラパスに沿った3D動画を作成できる。
SV3Dのベースとなっているのは、ビデオ生成に特化したAIモデル「Stable Video Diffusion(SVD)」だ。
これまでの多数派である画像生成AIをベースにしたアプローチでは、個々の画像の品質は高いものの、複数の画像間の一貫性を保つのが難しいという課題があった。
SV3DはSVDの持つ時間的一貫性を3Dオブジェクトの空間的一貫性に応用することで、この課題を解決。入力画像のオブジェクトを様々な角度から見た画像を、一貫性を保ちながら生成することができるという。
SV3Dのパイプライン
SV3Dは大きく分けて2つのステップで3Dモデルを生成する。
まず、ビデオ生成AIであるStable Video Diffusion(SVD)をベースにした手法を用いて、入力画像からマルチビュー画像を生成する。これは「Novel Multi-view Synthesis(NVS)」と呼ばれるステップだ。
次に、このマルチビュー画像を使って3Dモデルを最適化する。この3D Optimizationと呼ばれるステップでは、Neural Radiance Fields(NeRF)とDifferentiable Marching Tetrahedral Meshes(DMTet)という2つの3D表現技術が用いられる。
最終的に、このパイプラインを通して、入力画像から最適化された高品質な3Dメッシュ(形状、テクスチャ、照明)が生成される。
ここで言う3Dメッシュとは、高品質な3Dモデルのことを指し、「Maya」「3ds Max」「Blender」「Unity」など、ほとんどの一般的な3Dソフトウェアにインポートして使用することができる。
なお、利用できるフォーマットは「OBJ」「PLY」「glTF」の3種だ。
ベンチマークも従来の手法を上回る性能
SV3Dの性能は、複数のデータセットを用いたベンチマークテストで評価されている。
GSOデータセットを使ったマルチビュー合成のタスクでは、定量的な指標であるLPIPS、PSNR、SSIM、MSE、CLIP-Scoreにおいて、SV3Dは他の手法を上回る性能を示している。
また、22枚の実世界画像を用いたユーザースタディでは、96~99%のユーザーがSV3Dの生成したマルチビュー画像を他の手法よりも好む結果となった。
3Dモデル生成のタスクでも、SV3Dは2次元、3次元の再構成指標の両方で、他の手法を上回る結果を達成している。
さらに、SV3Dの生成した3Dモデルは、実世界の画像からでも高い品質を保っていることが示されている。
これらの結果は、SV3Dがノベルビュー合成と3Dモデル生成の両タスクにおいて、現在最高水準の性能を持つことを示唆している。
これまで3Dモデル作成には複数の画像や3Dデータ、高度な知識が必要とされてきたが、SV3Dなら1枚の画像さえあれば、誰でも手軽に立体的な3Dモデルを生成できるようになる。
この技術が浸透すれば、個人クリエイターはもちろん、ゲーム、VR/AR、eコマース、製造業など、さまざまな分野での3Dコンテンツ制作が格段に容易になるだろう。
とは言え、SV3Dはまだ実験段階のモデルであり、特に企業が3Dコンテンツを本格的に活用するには、さらなる改良が求められるだろう。
また、1枚の画像からの3Dモデル生成という制約から、複雑な形状や質感、動的なものの生成は難しい。実用化に向けてはこのようないくつかの技術的、実務的な課題を克服する必要があるだろう。