このページの本文へ

新清士の「メタバース・プレゼンス」 第88回

1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい

2024年12月16日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

「Doom」「カウンターストライク」をAIで生成

 一方で、今年、ワールドモデルについても、様々な可能性が提示されました。

 8月にグーグルの研究チームなどが発表した「Diffusionモデルはゲームエンジンである(Diffusion Models Are Real-Time Game Engines)」という論文があります。これは「Doom」を画像生成技術でリアルタイムにプレイ可能にしたものです。Doomはオープンソースで公開されていることもあり、新しい技術分野の研究としてよく使われます。

 この研究では、AIにDoomをプレイさせて数十億フレームの動画を作成し、それを「Stable Diffusion 1.4」を使って学習をさせたようです。そこに最適化を施し、1秒間に20フレームを生成できるようにすることで、ゲームを連続的にプレイできるようにしました。

▲発表された実際に生成AIで生み出されているプレイ動画

 その後10月に登場したのが、FPSゲーム「カウンターストライク:GO」を使った、ジュネーブ大学の「ワールド・モデリングのための拡散:アタリでは視覚的なディテールが重要(Diffusion for World Modeling:Visual Details Matter in Atari)」です。元々は、アタリのレトロゲームのプレイ動画を学習させて、再現することを目指す研究でした。特にビジュアル面での学習に力を入れることで、高い再現性を実現しています。

 その方法論を3Dのゲームにも使えるのかを調べた研究です。

 カウンターストライク:GOのマップとして有名な「Dust2」を使い、550万フレーム(95時間分)のプレイの様子を、RTX 4090のPC環境で、12日間かけて学習させたそうです。その結果、マウスとキーボードでプレイ可能な連続的な環境を作り出すことに成功したとしています。基本的な移動や、武器位置の変更、銃を撃って敵を倒すといった、一連のゲームシーンの再現もできています。もちろんマップの形状は次々に変わっていくのですが、「Dust2っぽい」マップが繰り返し生成されていきます。

 ただし、連続的なジャンプをすると移動と間違えたり、視界を失ったりするとおかしくなったりと、技術的には限界もあります。学習量が少ないシーンでは不適切な動作をしたりもするようです。ワールドモデリングを実現するためには、多数の動きのバリエーションの持つ動画からの学習が必要なことが見えてきます。

▲動作している動画。軽量化のために、生成サイズは小さいものをアップスケールしているために、細かいディティールは飛んでいる。動作環境は公開されているが筆者の環境ではうまく動作しなかった

カテゴリートップへ

この連載の記事
ピックアップ