Ada Lovelaceのダイ3種からわかる性能の違い　NVIDIA GPUロードマップ

2022年10月31日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

　半年に1回の頻度になっているNVIDIAのロードマップ。前回はHPC向けのHopperだったが、今回はやっと発表されたAda Lovelaceの話である。

Ada Lovelace（エイダ・ラブレス）アーキテクチャーを採用する「GeForce RTX 40」シリーズ

　もう1ヵ月も前の話になるが、9月21日に開催されたGTC 2022の基調講演で、GeForce RTX 4080およびGeForce RTX 4090が発表された。もっともこの時に発表されたGeForce RTX 4080のうち、12GB版に関しては発売を中止する(少なくともGeForce RTX 4080の名は冠さない)ことを10月14日に発表しており、いきなり味噌がついた感もなくはない。

　すでに、ハイエンドであるGeForce RTX 4090は店頭販売も始まっており、KTU氏による渾身のベンチマークその1、その2、その3が掲載されており、御覧になった読者も多いだろう。これに続き11月16日(米国時間)にはGeForce RTX 4080の発売も開始されるわけで、またKTU氏が徹夜でベンチマークを回しておられるであろうことは想像に難くない。

　さて、Ada Lovelaceの内部構造の速報版および詳細解説もすでにKTU氏の手で行なわれているのであまり書くこともないのだが、少しだけ補足をしておきたい。

　Ada Lovelaceのホワイトペーパーはすでに公開されているが、最新バージョン(v1.03)は12GB版GeForce RTX 4080のキャンセルを受けてAD104の記述が省かれている。ただその前のバージョンではAD102/AD103/AD104という3種類のダイがあることが明確に記述されている。

　下表は、そのホワイトペーパー(v1.01)のAppendixに記されたスペック一覧から、AD102/103/104を抜き出してまとめた物である。

Ada LovelaceのホワイトペーパーからAD102/103/104のスペックを抜き出したもの
GPU	GeForce RTX 4090	RTX 4080 16GB	RTX 4080 12GB
GPU Codename	AD102	AD103	AD104
GPU Architecture	NVIDIA Ada Lovelace
GPCs	11	7	5
TPCs	64	38	30
SMs	128	76	60
CUDA Cores / SM	128
CUDA Cores / GPU	16384	9728	7680
Tensor Cores / SM	4 (4th Gen)
Tensor Cores / GPU	512 (4th Gen)	304 (4th Gen)	240 (4th Gen)
OFA TOPS	305
RT Cores	128 (3rd Gen)	76 (3rd Gen)	60 (3rd Gen)
GPU Boost Clock (MHz)	2520	2505	2610
Peak FP32 TFLOPS (non-Tensor)	82.6	48.7	40.1
Peak FP16 TFLOPS (non-Tensor)	82.6	48.7	40.1
Peak BF16 TFLOPS (non-Tensor)	82.6	48.7	40.1
Peak INT32 TOPS (non-Tensor)	41.3	24.4	20
RT TFLOPS	191	112.7	92.7
Peak FP8 Tensor TFLOPS with FP16 Accumulate	660.6/1321.2	389.9/779.8	320.7/641.4
Peak FP8 Tensor TFLOPS with FP32 Accumulate	660.6/1321.2	389.9/779.8	320.7/641.4
Peak FP16 Tensor TFLOPS with FP16 Accumulate	330.3/660.6	194.9/389.8	160.4 /320.8
Peak FP16 Tensor TFLOPS with FP32 Accumulate	165.2/330.4	194.9/389.8	160.4 /320.8
Peak BF16 Tensor TFLOPS with FP32 Accumulate	165.2/330.4	194.9/389.8	160.4 /320.8
Peak TF32 Tensor TFLOPS	82.6/165.2	97.5/195	80.2/160.4
Peak INT8 Tensor TOPS	660.6/1321.2	389.9/779.82	320.7/641.4
Peak INT4 Tensor TOPS	1321.2/2642.4	779.8/1559.6	641.4/1282.8
Frame Buffer Memory Size and Type	24 GB GDDR6X	16 GB GDDR6X	12 GB GDDR6X
Memory Interface	384-bit	256-bit	192-bit
Memory Clock (Data Rate)	21 Gbps	22.4 Gbps	21 Gbps
Memory Bandwidth	1008 GB/sec	716.8 GB/sec	504 GB/sec
ROPs	176	112	80
Pixel Fill-rate (Gigapixels/sec)	443.5	280.6	208.8
Texture Units	512	304	240
Texel Fill-rate (Gigatexels/sec)	1290.2	761.5	626.4
L1 Data Cache/Shared Memory	16384 KB	9728 KB	7680 KB
L2 Cache Size	72MB	64MB	48MB
Register File Size	32768 KB	19456 KB	15360 KB
Video Engines	2 x NVENC (8th Gen)1 x NVDEC (5th Gen)
TGP (Total Graphics Power)	450 W	320 W	285 W
Transistor Count	76.3 Billion	45.9 Billion	35.8 Billion
Die Size	608.5 mm2	378.6 mm2	294.5 mm2
Manufacturing Process	TSMC 4N NVIDIA Custom Process
PCI Express Interface	Gen 4

　一番特徴的と思えるのは、AD103の出現だろう。下表は、Pascal以降のコンシューマー向け製品のうち、コアの型番と製品の関係をまとめたものだ。通常102がエンスージアストもしくはワークステーションのトップエンド向けという位置づけにあり、その下に104が来て、これはxx80ないしxx70グレードの製品となる。

コアの型番と製品の関係
Codename	Ada Lovelace(AD)	Ampere(GA)	Turing(TU)	Pascal(GP)
102	RTX 4090	RTX 3090 Ti RTX 3090 RTX 3080 Ti RTX 3080	Titan RTX RTX 2080 Ti	Titan Xp Titan X GTX 1080 Ti
103	RTX 4080	RTX 3060 Ti(*)
104	(RTX 4080 12GB)	RTX 3070 Ti RTX 3070 RTX 3060 Ti	RTX 2080 Super RTX 2080 RTX 2070 Super	GTX 1080 GTX 1070 Ti GTX 1070 GTX 1060
106		RTX 3060 RTX 3050	RTX 2070 RTX 2060 Super RTX 2060	GTX 1060 GTX 1050 Ti
107				GTX 1050
108				GTX 1030 GTX 1010

　メインストリーム向けはその下の106グレードになり、ここがxx70ないしxx60グレードである。107/108はバリューないしOEM向けという扱いで、Pascal世代ではGP107/GP108という製品があったほか、表には入れていないがTuring世代のGeForce GTX 1600シリーズの場合はGeForce GTX 1630/1650(の一部)がTU117を使っているが、Ampere世代では106がローエンドになってしまっている。

　そろそろダイを複数作るための初期コストが高騰しすぎて、106をローエンドに持って行った方が結局安価になったためと思われる。

　ちなみに上表には(*)を付けた謎のGA103が湧いているが、これはTom's Hardwareが今年2月に報じたもので、ZotacがGA103ベースのGeForce RTX 3060 Tiをラインナップしたというもの。