このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第691回

Ada Lovelaceのダイ3種からわかる性能の違い NVIDIA GPUロードマップ

2022年10月31日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 半年に1回の頻度になっているNVIDIAのロードマップ。前回はHPC向けのHopperだったが、今回はやっと発表されたAda Lovelaceの話である。

Ada Lovelace(エイダ・ラブレス)アーキテクチャーを採用する「GeForce RTX 40」シリーズ

 もう1ヵ月も前の話になるが、9月21日に開催されたGTC 2022の基調講演で、GeForce RTX 4080およびGeForce RTX 4090が発表された。もっともこの時に発表されたGeForce RTX 4080のうち、12GB版に関しては発売を中止する(少なくともGeForce RTX 4080の名は冠さない)ことを10月14日に発表しており、いきなり味噌がついた感もなくはない。

 すでに、ハイエンドであるGeForce RTX 4090は店頭販売も始まっており、KTU氏による渾身のベンチマークその1その2その3が掲載されており、御覧になった読者も多いだろう。これに続き11月16日(米国時間)にはGeForce RTX 4080の発売も開始されるわけで、またKTU氏が徹夜でベンチマークを回しておられるであろうことは想像に難くない。

 さて、Ada Lovelaceの内部構造の速報版および詳細解説もすでにKTU氏の手で行なわれているのであまり書くこともないのだが、少しだけ補足をしておきたい。

 Ada Lovelaceのホワイトペーパーはすでに公開されているが、最新バージョン(v1.03)は12GB版GeForce RTX 4080のキャンセルを受けてAD104の記述が省かれている。ただその前のバージョンではAD102/AD103/AD104という3種類のダイがあることが明確に記述されている。

 下表は、そのホワイトペーパー(v1.01)のAppendixに記されたスペック一覧から、AD102/103/104を抜き出してまとめた物である。

Ada LovelaceのホワイトペーパーからAD102/103/104のスペックを抜き出したもの
GPU GeForce RTX 4090 RTX 4080 16GB RTX 4080 12GB
GPU Codename AD102 AD103 AD104
GPU Architecture NVIDIA Ada Lovelace
GPCs 11 7 5
TPCs 64 38 30
SMs 128 76 60
CUDA Cores / SM 128
CUDA Cores / GPU 16384 9728 7680
Tensor Cores / SM 4 (4th Gen)
Tensor Cores / GPU 512 (4th Gen) 304 (4th Gen) 240 (4th Gen)
OFA TOPS 305
RT Cores 128 (3rd Gen) 76 (3rd Gen) 60 (3rd Gen)
GPU Boost Clock (MHz) 2520 2505 2610
Peak FP32 TFLOPS (non-Tensor) 82.6 48.7 40.1
Peak FP16 TFLOPS (non-Tensor) 82.6 48.7 40.1
Peak BF16 TFLOPS (non-Tensor) 82.6 48.7 40.1
Peak INT32 TOPS (non-Tensor) 41.3 24.4 20
RT TFLOPS 191 112.7 92.7
Peak FP8 Tensor TFLOPS with FP16 Accumulate 660.6/1321.2 389.9/779.8 320.7/641.4
Peak FP8 Tensor TFLOPS with FP32 Accumulate 660.6/1321.2 389.9/779.8 320.7/641.4
Peak FP16 Tensor TFLOPS with FP16 Accumulate 330.3/660.6 194.9/389.8 160.4 /320.8
Peak FP16 Tensor TFLOPS with FP32 Accumulate 165.2/330.4 194.9/389.8 160.4 /320.8
Peak BF16 Tensor TFLOPS with FP32 Accumulate 165.2/330.4 194.9/389.8 160.4 /320.8
Peak TF32 Tensor TFLOPS 82.6/165.2 97.5/195 80.2/160.4
Peak INT8 Tensor TOPS 660.6/1321.2 389.9/779.82 320.7/641.4
Peak INT4 Tensor TOPS 1321.2/2642.4 779.8/1559.6 641.4/1282.8
Frame Buffer Memory Size and Type 24 GB GDDR6X 16 GB GDDR6X 12 GB GDDR6X
Memory Interface 384-bit 256-bit 192-bit
Memory Clock (Data Rate) 21 Gbps 22.4 Gbps 21 Gbps
Memory Bandwidth 1008 GB/sec 716.8 GB/sec 504 GB/sec
ROPs 176 112 80
Pixel Fill-rate (Gigapixels/sec) 443.5 280.6 208.8
Texture Units 512 304 240
Texel Fill-rate (Gigatexels/sec) 1290.2 761.5 626.4
L1 Data Cache/Shared Memory 16384 KB 9728 KB 7680 KB
L2 Cache Size 72MB 64MB 48MB
Register File Size 32768 KB 19456 KB 15360 KB
Video Engines 2 x NVENC (8th Gen)1 x NVDEC (5th Gen)
TGP (Total Graphics Power) 450 W 320 W 285 W
Transistor Count 76.3 Billion 45.9 Billion 35.8 Billion
Die Size 608.5 mm2 378.6 mm2 294.5 mm2
Manufacturing Process TSMC 4N NVIDIA Custom Process
PCI Express Interface Gen 4

 一番特徴的と思えるのは、AD103の出現だろう。下表は、Pascal以降のコンシューマー向け製品のうち、コアの型番と製品の関係をまとめたものだ。通常102がエンスージアストもしくはワークステーションのトップエンド向けという位置づけにあり、その下に104が来て、これはxx80ないしxx70グレードの製品となる。

コアの型番と製品の関係
Codename Ada Lovelace(AD) Ampere(GA) Turing(TU) Pascal(GP)
102 RTX 4090 RTX 3090 Ti
RTX 3090
RTX 3080 Ti
RTX 3080
Titan RTX
RTX 2080 Ti
Titan Xp
Titan X
GTX 1080 Ti
103 RTX 4080 RTX 3060 Ti(*)
104 (RTX 4080 12GB) RTX 3070 Ti
RTX 3070
RTX 3060 Ti
RTX 2080 Super
RTX 2080
RTX 2070 Super
GTX 1080
GTX 1070 Ti
GTX 1070
GTX 1060
106 RTX 3060
RTX 3050
RTX 2070
RTX 2060 Super
RTX 2060
GTX 1060
GTX 1050 Ti
107 GTX 1050
108 GTX 1030
GTX 1010

 メインストリーム向けはその下の106グレードになり、ここがxx70ないしxx60グレードである。107/108はバリューないしOEM向けという扱いで、Pascal世代ではGP107/GP108という製品があったほか、表には入れていないがTuring世代のGeForce GTX 1600シリーズの場合はGeForce GTX 1630/1650(の一部)がTU117を使っているが、Ampere世代では106がローエンドになってしまっている。

 そろそろダイを複数作るための初期コストが高騰しすぎて、106をローエンドに持って行った方が結局安価になったためと思われる。

 ちなみに上表には(*)を付けた謎のGA103が湧いているが、これはTom's Hardwareが今年2月に報じたもので、ZotacがGA103ベースのGeForce RTX 3060 Tiをラインナップしたというもの。

Zotacが中国本土向けに出荷したGA103ベースのGeForce RTX 3060 Ti

 ただ記事にもあるように、このGA103というのは本来デスクトップ用ではなく、GeForce RTX 3080 Ti Mobile用に開発したもので、これをデスクトップ用に転用した形であり、おまけに全世界で販売されているモデルではない(中国本土向け専用?)ので、例外としていいだろう。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン