このページの本文へ

最新パーツ性能チェック 第411回

DLSS FG対応ゲームではRTX 30シリーズとどう変わる?

流行りのAI処理でもパフォーマンスを徹底検証!GeForce RTX 4070レビュー【後編】

2023年04月23日 11時30分更新

文● 加藤勝明(KTU) 編集● ジサトラユージ/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

AI系では旧世代に対して強みを発揮

 続いてはAI系のベンチマークも試してみよう。まずは「UL Procyon」に最近追加された「AI Inference benchmark for Windows」を試してみる。このベンチはAIでよく使われる処理6つ(MobileNetV3/ ResNet50/ Inception-V4/ DeepLabv3/ YOLOv3/ Real-ESRGAN)を実行させて、各々の推論時間からスコアーを算出するというものだ。

 今回の検証ではこのAI Inference benchmark for Windowsを“TensorRT”“Float32”の設定で動かした際のスコアーを比較した。

UL Procyon:AI Inference benchmark for Windowsのスコアー

UL Procyon:ベンチマーク時に観測された平均推論時間。テストのうち4つを抽出した

 Ada Lovelace世代のGeForceではTensorコアの世代も1つ新しい(第4世代)からなのか、巨大なL2が効いているからなのかまでは不明だが、スコアー上ではRTX 4070がSM数やメモリーバス幅において格上のRTX 3080を僅差で押さえ込んだ。RTX 4070 Tiは4070より10%程度スコアーが高いが、これはSMの差やクロックの差と思われる。

 ただ、平均推論時間に眼を向けてみると、RTX 4070はすべてのテストにおいて勝っているというわけではなく、RTX 3080に負けている部分もある、という点に注目しておきたい。

 続いてAIを利用したビデオの高画質化アプリ「Topaz Video AI」でも試してみよう。バージョン3系列からベンチマーク機能が追加されたので、これを利用する。入力する動画の解像度を指定すると、その動画に様々なAIを利用した処理をかけ、その際のフレームレートを比較するというものだ。

 今回は入力解像度を1920×1080ドットとした。テスト項目は合計で12項目と多いため、その中から超解像処理である“Artemis”、スローモーション処理である“4X Slowmo”系の処理の時間を比較してみた。

Topaz Video AI:超解像処理(Artemis)テストの平均フレームレート。2Xや4Xになるほど負荷が高い

Topaz Video AI:スローモーション処理(4X Slowmo)テストの平均フレームレート。ApolloやChronosは使用するAIモデルの違いを示す

 まずRTX 2070 SUPERやRTX 3070を基準に考えると、RTX 4070は大幅なパフォーマンス向上を果たしている。特にRTX 2070 SUPERだとApolloやChronosを使ったスローモーション処理が非常に遅いが、2世代を経たRTX 4070では著しいフレームレート上昇が確認できる。

 ただRTX 3080に対しては、RTX 4070は勝ったり負けたりといったところ。Artemisでは倍率に関係なくRTX 4070はRTX 3080のやや下となる点は、ゲームパフォーマンスと似たものを感じる。ここでもRTX 4070 Tiは安定してRTX 3080を超えているため、RTX 3080ユーザーの乗り換え先は間違いなくRTX 4070 Ti以上であることが示された。

 最後に今注目の画像生成AIのテストとして「Stable Diffusion」を避けて通るわけにはいかない。今回はWindows上にStable Diffusionの実行環境を準備し、Web UIである「Automatic1111」からアクセスできるようにセットアップした。学習モデルは「v2-1_768-ema-pruned」とし、さらにcuDNN v8.6.0を導入している。またStable Diffusionの起動には“--xformers”も引数に含めた。

 テストに使用したプロンプトは以下の通りだ。サンプリングステップは50、出力解像度は768×768ドットとし、映像を2枚ずつ10回出力させている。これに要した時間から、1分あたり何枚の画像を生成できるか(img/min)を算出して比較した。

beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting, ++dreamlike, vignette

Stable Diffusion:テストの細かいパラメーターはこちらを参照

Stable Diffusion:検証時のパラメーターはこちらも参照されたい

Stable Diffusion:1分あたり何枚の画像を生成できるか(img/min)の比較

Stable Diffusion:検証時に観測されたit/secの比較

 1分あたりの画像生成枚数に加え、1秒あたりの推論回数(it/sec)もグラフ化したが、スケールが違うだけで、どちらもバーが長い=高性能であるため、意味するところは同じである。今回の検証ではRTX 4070はRTX 3080をやや上回るパフォーマンスを発揮し、RTX 2070 SUPERを基準にすれば約1.77倍のパフォーマンスが期待できる。だが、SM搭載数の多いRTX 4070 Tiに対しては25%程度落ちるので、同価格帯でパフォーマンスを追求したければRTX 4070 Tiを選ぶのがよい、といったところだろうか。

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

ピックアップ

ASCII.jpメール アキバマガジン

ASCII.jp RSS2.0 配信中