最新パーツ性能チェック 第381回
購入前に押さえておきたいRTX 40シリーズの新機能も解説
GeForce RTX 4090基本ベンチ&解説編!Fire Strike UltraはRTX 3090から93%アップ!?
2022年10月11日 22時00分更新
補助電源ケーブル構成によりOC限界が変わる
RTX 4090 FEの補助電源コネクターにはRTX 3090 Tiで初採用された16ピンの“12VHPWR”が採用されている。これはRTX 4090 FEのTGPが450Wと高く設定されているためだが、RTX 4090 FEに同梱される変換ケーブルはなぜか8ピン×4を12VHPWERに変換する。8ピン補助電源1本で150Wだから、この変換ケーブルで600Wの電力供給に対応できる。これはどういう理由によるものなのだろうか?
その答えはシンプルで、RTX 4090 FEの場合、8ピンケーブルを3本しか接続しなくても普通に動作する。だが4本接続した場合に限り、「MSI Afterburner」などのOCユーティリティー上でPower Limitを定格の33%増、即ち600Wまで引き上げることができる。ただ、この仕様はビデオカードメーカーの味付け次第でもっと低い値、例えば500W程度に絞られている場合もある点に注意したい。RTX 4090 FEならではの欲張り仕様といえるかもしれない。
この挙動は同梱の12VHPWRケーブルの設計にある。現在流通している12VHPWR対応電源や変換ケーブルの中には、4本の制御用ピンのうちSense0と1をGNDに接続することで、決め打ちで600W供給を可能にしている製品があるが、RTX 4090 FE同梱の12VHPWRケーブルはもう少し賢い。このケーブルには補助電源ケーブルが何本接続されているか判定する回路が組み込まれており、これに応じて制御用4ピンをGNDに接続する/しないを決定している。RTX 4090 FEはこれを読み取って、Power Limitの設定レンジを決定する。
何度も繰り返すようだが、ここで解説した内容はあくまでRTX 4090 FEの場合であり、国内で流通するAICパートナー製RTX 4090カードでは異なる可能性がある点に注意されたい。筆者はファクトリーOCモデルにもこのケーブルが供給されるのではないかと考えているが、TGPを450Wより上に設定して出荷されるファクトリーOCモデルでは8ピンケーブル4本接続が必須になる可能性も十分に考えられる。
RTコアの進化とSERでレイトレーシングをより快適に
Ada LovelaceではCUDAコアそのものに手をいれず、RTコアとTensorコアの強化が主眼になっている。この辺はGTCでの発表を解説した記事で述べているが、本稿はその内容を補完するとともに、RTX 40シリーズの新要素をもう少し深く解説しておきたい。
①SER(Shader Execution Reordering)
GeForceではCUDAコアのクラスターであるSMが基本単位となり、ここに搭載されている命令ユニットがCUDAコアに命令を発行する。RTX 40シリーズのSMでは、この部分に命令の事項順序を動的に並び替え、処理効率を向上させることが可能となった。それがSERだ。
レイトレーシングでピクセルの色を決定する処理において、光線(レイ)があちこちに飛べば、飛んだ先ごとに異なったシェーディング処理が走ることになる。飛び先が多いほど異なる処理が走るため、処理の切り替えやメモリー管理などの負荷が増大する。SERで似た処理を連続するように並び替えることにより、処理効率を向上させることが可能になる。
「Cyberpunk 2077」に搭載予定の「Overdrive」モードでは、レイトレーシングの中でも特に負荷の重いパストレーシングが実装される予定だ。しかしこうした処理ではSERの存在が必要不可欠となる。NVIDIAによれば、Cyberpunk 2077のオーバードライブモードにおいて最大44%の性能向上が観測されたという。
②RTコアに新機能を追加
レイトレーシング処理の命といえるRTコアは、第3世代に進化。前世代に比較してレイ-トライアングルの衝突判定速度が2倍になったほか、「Opacity Micromap Engine」と「Displaced Micro-Mesh Engine」が新たに追加された。
Opacity Micromapは部分的に透明度を持つオブジェクト(植物の葉や炎、煙など)の処理を効率化する機能だ。下図のように葉のテクスチャーを持つオブジェクトにレイが衝突した場合を考えてみよう。葉のテクスチャーの外周は透明になっており、こうした表現は実ゲームでもよく使われる。このオブジェクトにレイが衝突した際、衝突地点が透明(外側)ならレイはヒットしていないと判定されるが、葉の内側や境界ならヒットしたと見なして別の処理に続く。
従来のRTコアでは、オブジェクトにヒットした判定はできるが、そこが透明な部分か、そうでないかの判定に複数の処理(下図ではShader Work)が使われる。画面上に葉が1枚や2枚で済む訳はないので、この判定処理がボトルネックを生む。
そこで予め透明度のマップ、即ちOpacity Micromapを保持しておき、それを参照して葉の外か中か、あるいは境界かを判断できる。透明度を持ったオブジェクトを多数配置して表現するシーンでは、Opacity Micromapでシェーダーの負荷を劇的に下げられるわけだ。
もう1つの追加要素であるDisplaced Micro-Mesh Engineは、レイとポリゴンの衝突判定を行うために必要不可欠なBVH(Bounding Volume Hierarchy)構築の速度とBVHのデータ量を劇的に小さくできる機能だ。オブジェクトのジオメトリーが100倍複雑になっても、レイをトレースする処理はそれほど増えないが、ジオメトリーが100倍になればBVHの構築時間も100倍になるし、メモリー消費量も増える。これも大きなボトルネックになり得る。
RTX 40シリーズの第3世代RTコアでは、BVHを適度に粗い三角形の集合レベルで構築し、その三角形ごとに本来の形状を再現する情報(Displacement Map)を組み合わせることが可能になる。こうすれば複雑なジオメトリーを少ないデータ量で表現できるのだ。
この連載の記事
-
第455回
デジタル
「Ryzen 7 9800X3D」が最強ゲーミングCPUであることを証明する -
第454回
デジタル
性能が最大50%引き上げられたSamsung製SSD「990 EVO Plus」は良コスパSSDの新星だ -
第453回
デジタル
性能も上がったが消費電力も増えた「Ryzen 7 9800X3D」最速レビュー、AI推論の処理速度は7800X3Dの約2倍! -
第452回
自作PC
Core Ultra 200Sシリーズのゲーム性能は?Core Ultra 5/7/9を10タイトルで徹底検証 -
第451回
自作PC
Core Ultra 9 285K/Core Ultra 7 265K/Core Ultra 5 245K速報レビュー!第14世代&Ryzen 9000との比較で実力を見る -
第450回
デジタル
AGESA 1.2.0.2でRyzen 9 9950Xのパフォーマンスは改善するか? -
第449回
デジタル
Ryzen 9000シリーズの性能にWindows 11の分岐予測改善コードはどう影響するか? -
第448回
デジタル
TDP 105W動作にするとRyzen 7 9700X/Ryzen 5 9600Xはどの程度化ける? レッドゾーン寸前を攻める絶妙な設定だが、ゲームでの効果は期待薄 -
第447回
デジタル
Zen 5とTDP増でゲーム性能は向上したか?「Ryzen 9 9950X」「Ryzen 9 9900X」の実力チェック -
第446回
デジタル
「Ryzen 9 9950X」「Ryzen 9 9900X」は“約束された”最強のCPUになれたのか? ベンチマークで見えた利点と欠点 -
第445回
デジタル
「Ryzen 7 9700X」「Ryzen 5 9600X」のゲーミング性能はゲームキングRyzen 7 7800X3Dに勝てる? - この連載の一覧へ