「Doom」「カウンターストライク」をAIで生成
一方で、今年、ワールドモデルについても、様々な可能性が提示されました。
8月にグーグルの研究チームなどが発表した「Diffusionモデルはゲームエンジンである(Diffusion Models Are Real-Time Game Engines)」という論文があります。これは「Doom」を画像生成技術でリアルタイムにプレイ可能にしたものです。Doomはオープンソースで公開されていることもあり、新しい技術分野の研究としてよく使われます。
この研究では、AIにDoomをプレイさせて数十億フレームの動画を作成し、それを「Stable Diffusion 1.4」を使って学習をさせたようです。そこに最適化を施し、1秒間に20フレームを生成できるようにすることで、ゲームを連続的にプレイできるようにしました。
▲発表された実際に生成AIで生み出されているプレイ動画
その後10月に登場したのが、FPSゲーム「カウンターストライク:GO」を使った、ジュネーブ大学の「ワールド・モデリングのための拡散:アタリでは視覚的なディテールが重要(Diffusion for World Modeling:Visual Details Matter in Atari)」です。元々は、アタリのレトロゲームのプレイ動画を学習させて、再現することを目指す研究でした。特にビジュアル面での学習に力を入れることで、高い再現性を実現しています。
その方法論を3Dのゲームにも使えるのかを調べた研究です。
カウンターストライク:GOのマップとして有名な「Dust2」を使い、550万フレーム(95時間分)のプレイの様子を、RTX 4090のPC環境で、12日間かけて学習させたそうです。その結果、マウスとキーボードでプレイ可能な連続的な環境を作り出すことに成功したとしています。基本的な移動や、武器位置の変更、銃を撃って敵を倒すといった、一連のゲームシーンの再現もできています。もちろんマップの形状は次々に変わっていくのですが、「Dust2っぽい」マップが繰り返し生成されていきます。
ただし、連続的なジャンプをすると移動と間違えたり、視界を失ったりするとおかしくなったりと、技術的には限界もあります。学習量が少ないシーンでは不適切な動作をしたりもするようです。ワールドモデリングを実現するためには、多数の動きのバリエーションの持つ動画からの学習が必要なことが見えてきます。
▲動作している動画。軽量化のために、生成サイズは小さいものをアップスケールしているために、細かいディティールは飛んでいる。動作環境は公開されているが筆者の環境ではうまく動作しなかった
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第161回
AI
わずか3日で停止された新AI「Claude Fable 5」は何がすごかったのか -
第160回
AI
寝不足になるほど面白い ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた -
第159回
AI
AIを使える人と使えない人で、とんでもない差が出ると実感した理由 -
第158回
AI
SDXLの次はこれ? アニメ特化のローカル画像生成AI、驚きの実力 -
第157回
AI
AIだけでゲームは作れるのか? Codexに7本作らせて見えた実力と限界 -
第156回
AI
ChatGPTの画像生成AIは本当に最強か Nano Bananaと比べて見えた“弱点” -
第155回
AI
非エンジニアが数百万円級のツールを開発 画像&動画生成AIツールがゼロから作れた話 -
第154回
AI
ChatGPTの画像生成AIが強すぎる AI画像が世界中に氾濫する時代へ -
第153回
AI
ChatGPTの画像生成AIが「Nano Banana」超え? 漫画や動画風カットが実用レベルに -
第152回
AI
Seedance 2.0×AIエージェントでAI動画が激変 “AI脚本家”や“AI絵コンテ作家”との共同作業で、アニメ制作が身近に -
第151回
AI
画像・動画生成AIの常識が変わる、Claude Codeに全部やらせる方法論 - この連載の一覧へ





