このページの本文へ

新清士の「メタバース・プレゼンス」 第50回

“世界生成AI”到来か 画像生成AIのゲームエンジン化が進む

2024年01月22日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Unreal Engineのゲーム空間をimage2imageで変化させてみた

 初めに、image2imageを組み合わせたケースを考えてみましょう。

 昨年12月、あき先生ことAkio Kodairaさんを筆頭にした研究グループが、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表しました。画像サイズが小さければ100fps以上も可能という、現状では最高速の生成ができる方法です。

 これによってUnreal Engineのゲーム空間を撮影し、それをi2iで生成し続ければ、十分にゲームが成立するのではと考えました。試してみたものがこちらです。

 これはUnreal Engine 5(UE5)のサードパーソンビューの基本的なチュートリアルのマップですが、プレイできないことはないですね(笑)。裏でUE5が動いていることもあり、解像度は低く、フレームレートも10fpsぐらいでした。ただ、こうした「何があるのかはっきりしない」テーマのゲームだと定義してしまえば、成立する可能性はあるようにも思います。

 さらに、以前に紹介したUE5の森林をテーマにしたプロシージャルマップをi2iで生成したものがこちらです(プロシージャルについては「もし画像生成AI『Midjourney』がメタバースに実装されたら」参照)。

 森の中を動いているけど、何が映っているのかがわかりません。プロンプトに「森、木、岩」といった指定は入れているのですが、UE5の画面の情報量が多すぎるのか、解像度の限界からか、映像がはっきりしません。最後のシーンでは岩山が映りますが、岩になったり巨大樹になったりと安定しません。

 もう1つ、普通の三人称視点のシューターのサンプルマップも試してみました。女性形のアンドロイドが登場するため「少女の後ろ姿(Girl from back)」というプロンプトを入れてみたら、形状が不安定なところがすべて「ガール」になってしまいました(笑)。壁の影のしみからもガールが登場するという有様で、敵の位置がまったくわからず、ゲームとしては成立しませんでした。ただ、もっとマップの情報を単純化したりすると成立するかもしれません。

 こうした高速化のアプローチでは、まだまだ一貫性が大きな課題になりそうです。それでも、可能性は十分に感じられました。UE5で表示されているものが何か動的にプロンプト分析する手法など、今後も新しいテクニックが出てくるだろうと思います。

 筆者の環境はNVIDIA GeForce RTX4090と相当ハイエンドですので、現時点では求められるビデオカードのスペックが高いことも一般化のネックになると考えられます。

カテゴリートップへ

この連載の記事
ピックアップ