1枚の画像から、歩き回れる“世界”ができる　来年のAIは「ワールドモデル」がやばい

2024年12月16日 07時00分更新

文● 新清士

AIで世界をシミュレーションする「ワールドモデル」

　さかのぼると、2024年1月に画像生成AIサービスのMidjourneyのデイヴィッド・ホルツCEOが「2024年末までに、リアルタイムのオープンワールドが実現できれば」と発言していました。MidjourneyはAI動画などの関連する技術開発を進めているようですが、まだこの発言を受けた技術を発表していません。（参考：「“世界生成AI”到来か　画像生成AIのゲームエンジン化が進む」）

　当時、ホルツ氏は「Midjourneyはすごく早く描けるアーティストではなく、むしろとても遅いゲームエンジンのようなもの」とも発言しています。画像生成AIが待ち時間なく連続的に画像を生成することができれば、それはリアルタイムに画像を作り出すゲームエンジンと本質的に同じであることを指摘していました。

　Genie 2は、そうした連続的な画像を生成することで、ゲームエンジンのように動作させることが可能な技術です。こうした研究は生成AIを利用して世界シミュレーションの実現を目指す「ワールドモデル」と呼ばれます。最初に実現したのはDeepMindであったとはいえ、2024年末までにオープンワールドを実現する技術が登場してきたと言えます。

　いくつか、生成AIを使ってゲーム的な没入感を実現しようとする先行研究が存在しています。代表的なのは、360度画像を生成することで、世界への没入を実現するというアプローチです。2022年にはこうした初期の研究が登場しています。現在はAI企業のInWord技術責任者のアレクセイ・ティホノフ氏が個人プロジェクトとして1993年にリリースされたFPS「Doom」の画面を学習した画像から、360度の動画を生成した動画をXにポストしています。

Okay, another way to have fun with CLIP + @pixray: text to 3d pixel panorama hallucinations
(no original screenshots used!)

Here is [doom]: pic.twitter.com/kxgnfdmU4q
— Aleksey Tikhonov (@altsoph) January 26, 2022

　この実験は、2023年に「没入型体験のための仮想世界の展開（Unrolling Virtual Worlds for Immersive Experiences）」という研究として発表され、特定の場所をクリックすると別の360度の画像へと遷移する簡易的なアドベンチャーゲームスタイルの没入環境を実現する方法として発展させられました。

Good news! Our paper "Unrolling Virtual Worlds for Immersive Experiences" with @altsoph will be presented at @ML4CDworkshop at @NeurIPSConf 2023. Read more at: https://t.co/nL9GHDDaNO pic.twitter.com/7VsY6PIR2W
— Anton Repushko (@repushko_en) December 1, 2023

　類似の技術は、米Blockade Labs（ブロケードラボ）が、「Skybox AI」という技術で商用サービス化を果たしています。プロンプトを入力するだけで360度の画像が生成されます。6月のアップデートでは8Kサイズの画像も生成可能になりました。

Skybox AIで生成した東京の街並み。実際は360度画像になっているので、角度を変えてもつながった画像になっている（筆者作成）

　ただし、360度画像のアプローチには限界があります。画像生成AIの仕組みをうまく拡張することで比較的簡単に生成できるというメリットがありますが、生成された画像と直接的なインタラクションを実現することは簡単ではありません。

　12月2日に米World Labs（ワールドラボ）というベンチャーが、360度画像に深度情報をうまく組み合わせることで、空間内を移動できるようにする技術を発表しました。1枚の参照イメージを入力情報とすると、そこから360度画像と深度情報も生成し、それを組み合わせて移動できるインタラクティブ可能な空間を作り上げる技術です。

　実際に生成された世界に入れるデモが公開されていますが、特筆すべきなのは、これまでの類似サービスと比べて深度情報の生成が自然で、物体と背景の境界線に生じがちな不自然さがかなり解消されている点です。また、インタラクションにとって重要なアタリ判定の部分も適切に生成できているようにも見えます。

　元が360度画像ということもあり、ユーザーが動き回れる範囲には制限があるのですが、それでも360度画像から生み出した画像から、オープンワールド的なインタラクションを目指していくアプローチでも着実に技術の進歩が進んでいます。