現行世代最強のGPUを699ドルで超えてきたRTX 3080

Titanの後釜はRTX 3090!?Ampereで驚愕の性能向上を果たしたGeForce RTX 30シリーズ発表会を振り返る

2020年09月02日 07時40分更新

新アーキテクチャー「Ampere」

　それでは本命のGeForce RTX 30シリーズの概要に入ろう。GeForce RTX 30シリーズのアーキテクチャーはウワサ通り「Ampere」であることが明かにされた(Ampereは「アンピーア」と発音していたが、我々はなじみ深い「アンペア」で良いだろう)。

　Ampereは既存のCUDAコア性能のみならず、RTコアやTensorコアの性能も大きく向上させた。これが設計の改善による効果なのか、単にコア数を増やしたからなのかまでは詳しい解説がなかったが、ジェンスン・ファン氏はプレゼンテーションではどのコアの性能も従来より大幅にアップしていると表現した。

　Ampereはサムスンの8nm NVIDIAカスタムプロセスで製造され、VRAMはGDDR6Xを採用。結論から言うとGDDR6XはGeForce RTX 3080とGeForce RTX 3090のみに採用され、それ以下はGDDR6メモリーが採用される。GeForce RTX 20シリーズで採用されたGDDR6メモリーは早くも世代落ちにされてしまったわけだ。

手始めにGeForce RTX 20シリーズで実装されたRTコアとTensorコアを利用すれば、レイトレーシングを含むGPUワークロードの処理時間は劇的に短くなる、と解説

Turing、つまりGeForce RTX 20シリーズではCUDAコアの性能が11TFLOPS、RTコアの性能が34RT-TFLOPS、Tensorコアの性能が89Tensor-TFLOPSだった。この数値の意味するところは一度脇に置いて、Ampereと比較してみよう

AmpereことGeForce RTX 30シリーズではRTコアの性能は1.7倍、Tensorコアは2.7倍の性能に向上と謳っている。なお、この数値はGeForce RTX 3080のもので計算しているようだ

Ampereはサムスンの8nm NVIDIAカスタムプロセスで製造される。トランジスター数は280億個とも書かれているが、これはGeForce RTX 30シリーズのどのモデルのデータかまでは明らかにされていない

　最も気になる性能に関しては、レイトレーシングのパフォーマンスにおいてTuring比の1.5倍から2倍、ワットパフォーマンスもTuring比の1.9倍というにわかに信じがたい数値が次々と飛び出した。果たしてこれが本当なのかどうかは、この後評価用カードが届き次第ベンチマークを行ない明らかにしていく予定だ。

消費電力（横軸）とゲーム「Control」のフレームレート（縦軸）をプロットすると、GeForce RTX 20シリーズ（灰）よりもGeForce RTX 30シリーズ（緑）のほうが2倍近くワットパフォーマンスが良いことが示されている

DXR（レイトレーシング）のパフォーマンスはGeForce RTX 20シリーズのざっくり1.5倍から2倍に向上する

　最近のゲームはデータ量が非常に多く、GPU以外の部分がボトルネックになることが多い。ストレージの主力がHDDからSSDに移り、内部接続インターフェースもSATAからPCI Express Gen3、そして現在はGen4へ移行しつつある。だが、今のシステムはストレージから圧縮されたデータを読み込み、一度CPUを経由してメインメモリーへ、その上でGPUに繋がったVRAMに転送するという手順を踏むため、CPUがボトルネックになってしまう。

　このボトルネックはストレージの速さや圧縮の度合いによっても変化する。HDDなら転送スピードが遅いので1コアで十分な性能が出るが、Gen4 SSDで圧縮されたデータを送る場合、20コア以上必要になるという（あくまでNVIDIAの弁なので、実際CPUコアがそれだけ使われるゲームがあるかと言えば別だが……）。

　そこで、NVIDIAはCPUやメインメモリーを経由せずにストレージからGPU、そしてVRAMへデータを直送する「RTX IO」という技術を導入した。これはXbox Series Xで導入されたSSDから直接VRAMへデータをストリームする機能とぴったり符合しており、RTX IOはこの機能をPCで利用可能にする「Microsoft DirectStorage for Windows」もサポートしている。SSD→VRAMへ直接データをストリームするというのは次世代家庭用ゲーム機のSSDの武器であると目された部分だが、これと同じことをRTX IOを使えばPC上でも実現可能になるということだ。これによりゲームのロード待ち時間が劇的に改善される可能性を秘めている。

　ちなみに、このRTX IOはGeForce RTX 30シリーズ限定なのか、既存のGeForce RTX 20シリーズでも利用可能なのかについては明らかにされていない。

RTX IOを使わない場合、圧縮されたデータをCPUで展開し、VRAMに送り込むまでに多量のCPUコアリソースと時間が必要になる。しかし、RTX IOを使えばストレージから直接VRAMへデータをストリーミングできる

　Ampereで初採用されたビデオメモリー「GDDR6X」も技術的に興味深い部分が多数存在する。これまでのメモリーは電圧レベルが2段階（いわゆる0と1)だったが、GDDR6Xでは電圧を250mV間隔の00/01/10/11の4段階で判断する。これによりGDDR6に比べて2倍の帯域が獲得できるというわけだ。また、GDDR6XではPAM4シグナリング（Pulse Amplitude Modulation-4：4値パルス振幅変調）と呼ばれる技術が採用されている。なお、PAM4に関してはIntelのウェブサイトhttps://www.intel.co.jp/content/www/jp/ja/programmable/documentation/qjz1512512364550.htmlが詳しいので説明を割愛させていただく。