AIで世界をシミュレーションする「ワールドモデル」
さかのぼると、2024年1月に画像生成AIサービスのMidjourneyのデイヴィッド・ホルツCEOが「2024年末までに、リアルタイムのオープンワールドが実現できれば」と発言していました。MidjourneyはAI動画などの関連する技術開発を進めているようですが、まだこの発言を受けた技術を発表していません。(参考:「“世界生成AI”到来か 画像生成AIのゲームエンジン化が進む」)
当時、ホルツ氏は「Midjourneyはすごく早く描けるアーティストではなく、むしろとても遅いゲームエンジンのようなもの」とも発言しています。画像生成AIが待ち時間なく連続的に画像を生成することができれば、それはリアルタイムに画像を作り出すゲームエンジンと本質的に同じであることを指摘していました。
Genie 2は、そうした連続的な画像を生成することで、ゲームエンジンのように動作させることが可能な技術です。こうした研究は生成AIを利用して世界シミュレーションの実現を目指す「ワールドモデル」と呼ばれます。最初に実現したのはDeepMindであったとはいえ、2024年末までにオープンワールドを実現する技術が登場してきたと言えます。
いくつか、生成AIを使ってゲーム的な没入感を実現しようとする先行研究が存在しています。代表的なのは、360度画像を生成することで、世界への没入を実現するというアプローチです。2022年にはこうした初期の研究が登場しています。現在はAI企業のInWord技術責任者のアレクセイ・ティホノフ氏が個人プロジェクトとして1993年にリリースされたFPS「Doom」の画面を学習した画像から、360度の動画を生成した動画をXにポストしています。
Okay, another way to have fun with CLIP + @pixray: text to 3d pixel panorama hallucinations
— Aleksey Tikhonov (@altsoph) January 26, 2022
(no original screenshots used!)
Here is [doom]: pic.twitter.com/kxgnfdmU4q
この実験は、2023年に「没入型体験のための仮想世界の展開(Unrolling Virtual Worlds for Immersive Experiences)」という研究として発表され、特定の場所をクリックすると別の360度の画像へと遷移する簡易的なアドベンチャーゲームスタイルの没入環境を実現する方法として発展させられました。
Good news! Our paper "Unrolling Virtual Worlds for Immersive Experiences" with @altsoph will be presented at @ML4CDworkshop at @NeurIPSConf 2023. Read more at: https://t.co/nL9GHDDaNOpic.twitter.com/7VsY6PIR2W
— Anton Repushko (@repushko_en) December 1, 2023
類似の技術は、米Blockade Labs(ブロケードラボ)が、「Skybox AI」という技術で商用サービス化を果たしています。プロンプトを入力するだけで360度の画像が生成されます。6月のアップデートでは8Kサイズの画像も生成可能になりました。
ただし、360度画像のアプローチには限界があります。画像生成AIの仕組みをうまく拡張することで比較的簡単に生成できるというメリットがありますが、生成された画像と直接的なインタラクションを実現することは簡単ではありません。
12月2日に米World Labs(ワールドラボ)というベンチャーが、360度画像に深度情報をうまく組み合わせることで、空間内を移動できるようにする技術を発表しました。1枚の参照イメージを入力情報とすると、そこから360度画像と深度情報も生成し、それを組み合わせて移動できるインタラクティブ可能な空間を作り上げる技術です。
実際に生成された世界に入れるデモが公開されていますが、特筆すべきなのは、これまでの類似サービスと比べて深度情報の生成が自然で、物体と背景の境界線に生じがちな不自然さがかなり解消されている点です。また、インタラクションにとって重要なアタリ判定の部分も適切に生成できているようにも見えます。
元が360度画像ということもあり、ユーザーが動き回れる範囲には制限があるのですが、それでも360度画像から生み出した画像から、オープンワールド的なインタラクションを目指していくアプローチでも着実に技術の進歩が進んでいます。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ






