マウスコンピューターのクリエイター向けPC「DAIV」シリーズで検証:

画像生成AI 速いマシンは世界が違う

文●新清士 編集●ASCII

提供: マウスコンピューター

  • この記事をはてなブックマークに追加
  • 本文印刷

画像生成AIを使うにはRTX 4080でも足りなかった

 画像生成AIを応用する具体的な領域として上がってきたのが遠景画像の作成でした。

 2Dのアクションゲームの場合、それぞれのシーンに合わせて大量の背景を作る必要性が出てきます。それを画像生成AIで作り出した画像を使うことで、これまでになかった雰囲気を持った表現方法の実現と、量的なバリエーションの作成を満たすことができるのではないかと考えたのです。現在のプロトタイプ開発は、各種のアクションシステムの基本を設計して組み込むとともに、アセットなどのデータ仕様を固めるための試行錯誤を続けています。

 2月中旬から約1ヵ月間、マウスコンピューターのクリエイター向けPC「DAIV」のDAIV DD-I9G90(Core i9-13900KF、GeForce RTX 4090搭載)とDAIV DD-I7N60(Core i7-13700KF、RTX A6000搭載)を使い、実際のプロジェクトで使うデータを作成する際の使用感を探ってみました。

 2機種の最大の違いはVRAMの搭載量。RTX 4090は24GBなのに対し、RTX A6000は48GBです。

NVIDIA GeForce RTX 4090 写真:「GeForce RTX 4090基本ベンチ&解説編」より

 作業環境としては、画像生成AI環境「Stable Diffusion」の実行プログラム「A1111 Web UI」の同じ環境をローカルPC上に構築しました。最終的な出力はUE5に出すことを前提に、画像編集ツール「Photoshop」や3Dツール「Blender」とも組み合わせて使っています。

 以前はRTX 4080(VRAM 16GB搭載)を昨年11月の発売直後に購入して利用していました。しかし「Dream Booth」といったStable Diffusionの追加学習用プログラムを使うには、最低でも12GB以上のVRAMが必要です。今年に入ってVRAMが8GB程度でも使えるLoRA(Low-Rank Adaptation)といった学習方法が登場していますが、RTX 4080ならできることが飛躍的に広がるのではないかと期待したわけですね。

 しかし結果としては16GBでも不十分でした。画像サイズで1200×900ドット程度が生成できる限界のようです。その時点でVRAMの使用率が100%に達しており、それ以上大きなサイズを求めるとVRAM不足でエラーが起こります。過去に経験してきたVRゲームの開発では、RTX 4080でも十分すぎる性能ですが、画像生成AIにはまったく足りませんでした。

画像生成AIでゲームの背景画像を生成したい

作成した背景画像の1枚

 開発中のProject-GENESISは横スクロールが基本動作のゲームなので、横長のサイズで作成した画像を背景に使用することを想定しています。背景のテーマは「地球に近いけど、ちょっと違った雰囲気を持つ幻想的な森林」です。近景を構成するオブジェクトは「Unreal Engine マーケットプレイス」などで販売されているアセットを組み合わせて作成します。

 2Dの画像だけでなく作成した画像の深度情報画像(Depth Image)も生成し、Blenderで3D化して組み合わせたときに違和感なく表示されるかも検証しました。結果、必要となる画像は、横長でかつ解像度の高い画像です。

 A1111 Web UIは基本設定上2048×2048ドットが最大サイズですが、画像をアップスケールすることで最大4倍の8192×8192ドットの画像を生成できるよう設定できます。しかし、実際にそのサイズが作れるとは限らず、最大サイズはVRAMの量によって変わってきます。また、基本的には解像度が高いほど、情報密度が多い画像が作れる可能性が高まります。

 様々なテストの結果、2048×768ドットの横長画像を生成してハイレゾ化し、解像度を倍にすることでディティールを持たせることを目標としました。出力データは「Stable Diffusion 2.1」に追加学習を施した、2月にリリースされたばかりの「Waifu Diffusion 1.5 Beta 2 Aesthetic」を使用しました。

A11111 Web UIの画面。プロンプトの一部は、ChatGPT3を使って作成しているが、それだけでは十分な結果を生み出せなかったために、様々に追加している