半年に1回の頻度になっているNVIDIAのロードマップ。前回はHPC向けのHopperだったが、今回はやっと発表されたAda Lovelaceの話である。
もう1ヵ月も前の話になるが、9月21日に開催されたGTC 2022の基調講演で、GeForce RTX 4080およびGeForce RTX 4090が発表された。もっともこの時に発表されたGeForce RTX 4080のうち、12GB版に関しては発売を中止する(少なくともGeForce RTX 4080の名は冠さない)ことを10月14日に発表しており、いきなり味噌がついた感もなくはない。
すでに、ハイエンドであるGeForce RTX 4090は店頭販売も始まっており、KTU氏による渾身のベンチマークその1、その2、その3が掲載されており、御覧になった読者も多いだろう。これに続き11月16日(米国時間)にはGeForce RTX 4080の発売も開始されるわけで、またKTU氏が徹夜でベンチマークを回しておられるであろうことは想像に難くない。
さて、Ada Lovelaceの内部構造の速報版および詳細解説もすでにKTU氏の手で行なわれているのであまり書くこともないのだが、少しだけ補足をしておきたい。
Ada Lovelaceのホワイトペーパーはすでに公開されているが、最新バージョン(v1.03)は12GB版GeForce RTX 4080のキャンセルを受けてAD104の記述が省かれている。ただその前のバージョンではAD102/AD103/AD104という3種類のダイがあることが明確に記述されている。
下表は、そのホワイトペーパー(v1.01)のAppendixに記されたスペック一覧から、AD102/103/104を抜き出してまとめた物である。
Ada LovelaceのホワイトペーパーからAD102/103/104のスペックを抜き出したもの | ||||||
---|---|---|---|---|---|---|
GPU | GeForce RTX 4090 | RTX 4080 16GB | RTX 4080 12GB | |||
GPU Codename | AD102 | AD103 | AD104 | |||
GPU Architecture | NVIDIA Ada Lovelace | |||||
GPCs | 11 | 7 | 5 | |||
TPCs | 64 | 38 | 30 | |||
SMs | 128 | 76 | 60 | |||
CUDA Cores / SM | 128 | |||||
CUDA Cores / GPU | 16384 | 9728 | 7680 | |||
Tensor Cores / SM | 4 (4th Gen) | |||||
Tensor Cores / GPU | 512 (4th Gen) | 304 (4th Gen) | 240 (4th Gen) | |||
OFA TOPS | 305 | |||||
RT Cores | 128 (3rd Gen) | 76 (3rd Gen) | 60 (3rd Gen) | |||
GPU Boost Clock (MHz) | 2520 | 2505 | 2610 | |||
Peak FP32 TFLOPS (non-Tensor) | 82.6 | 48.7 | 40.1 | |||
Peak FP16 TFLOPS (non-Tensor) | 82.6 | 48.7 | 40.1 | |||
Peak BF16 TFLOPS (non-Tensor) | 82.6 | 48.7 | 40.1 | |||
Peak INT32 TOPS (non-Tensor) | 41.3 | 24.4 | 20 | |||
RT TFLOPS | 191 | 112.7 | 92.7 | |||
Peak FP8 Tensor TFLOPS with FP16 Accumulate | 660.6/1321.2 | 389.9/779.8 | 320.7/641.4 | |||
Peak FP8 Tensor TFLOPS with FP32 Accumulate | 660.6/1321.2 | 389.9/779.8 | 320.7/641.4 | |||
Peak FP16 Tensor TFLOPS with FP16 Accumulate | 330.3/660.6 | 194.9/389.8 | 160.4 /320.8 | |||
Peak FP16 Tensor TFLOPS with FP32 Accumulate | 165.2/330.4 | 194.9/389.8 | 160.4 /320.8 | |||
Peak BF16 Tensor TFLOPS with FP32 Accumulate | 165.2/330.4 | 194.9/389.8 | 160.4 /320.8 | |||
Peak TF32 Tensor TFLOPS | 82.6/165.2 | 97.5/195 | 80.2/160.4 | |||
Peak INT8 Tensor TOPS | 660.6/1321.2 | 389.9/779.82 | 320.7/641.4 | |||
Peak INT4 Tensor TOPS | 1321.2/2642.4 | 779.8/1559.6 | 641.4/1282.8 | |||
Frame Buffer Memory Size and Type | 24 GB GDDR6X | 16 GB GDDR6X | 12 GB GDDR6X | |||
Memory Interface | 384-bit | 256-bit | 192-bit | |||
Memory Clock (Data Rate) | 21 Gbps | 22.4 Gbps | 21 Gbps | |||
Memory Bandwidth | 1008 GB/sec | 716.8 GB/sec | 504 GB/sec | |||
ROPs | 176 | 112 | 80 | |||
Pixel Fill-rate (Gigapixels/sec) | 443.5 | 280.6 | 208.8 | |||
Texture Units | 512 | 304 | 240 | |||
Texel Fill-rate (Gigatexels/sec) | 1290.2 | 761.5 | 626.4 | |||
L1 Data Cache/Shared Memory | 16384 KB | 9728 KB | 7680 KB | |||
L2 Cache Size | 72MB | 64MB | 48MB | |||
Register File Size | 32768 KB | 19456 KB | 15360 KB | |||
Video Engines | 2 x NVENC (8th Gen)1 x NVDEC (5th Gen) | |||||
TGP (Total Graphics Power) | 450 W | 320 W | 285 W | |||
Transistor Count | 76.3 Billion | 45.9 Billion | 35.8 Billion | |||
Die Size | 608.5 mm2 | 378.6 mm2 | 294.5 mm2 | |||
Manufacturing Process | TSMC 4N NVIDIA Custom Process | |||||
PCI Express Interface | Gen 4 |
一番特徴的と思えるのは、AD103の出現だろう。下表は、Pascal以降のコンシューマー向け製品のうち、コアの型番と製品の関係をまとめたものだ。通常102がエンスージアストもしくはワークステーションのトップエンド向けという位置づけにあり、その下に104が来て、これはxx80ないしxx70グレードの製品となる。
コアの型番と製品の関係 | ||||||
---|---|---|---|---|---|---|
Codename | Ada Lovelace(AD) | Ampere(GA) | Turing(TU) | Pascal(GP) | ||
102 | RTX 4090 | RTX 3090 Ti RTX 3090 RTX 3080 Ti RTX 3080 |
Titan RTX RTX 2080 Ti |
Titan Xp Titan X GTX 1080 Ti |
||
103 | RTX 4080 | RTX 3060 Ti(*) | ||||
104 | (RTX 4080 12GB) | RTX 3070 Ti RTX 3070 RTX 3060 Ti |
RTX 2080 Super RTX 2080 RTX 2070 Super |
GTX 1080 GTX 1070 Ti GTX 1070 GTX 1060 |
||
106 | RTX 3060 RTX 3050 |
RTX 2070 RTX 2060 Super RTX 2060 |
GTX 1060 GTX 1050 Ti |
|||
107 | GTX 1050 | |||||
108 | GTX 1030 GTX 1010 |
メインストリーム向けはその下の106グレードになり、ここがxx70ないしxx60グレードである。107/108はバリューないしOEM向けという扱いで、Pascal世代ではGP107/GP108という製品があったほか、表には入れていないがTuring世代のGeForce GTX 1600シリーズの場合はGeForce GTX 1630/1650(の一部)がTU117を使っているが、Ampere世代では106がローエンドになってしまっている。
そろそろダイを複数作るための初期コストが高騰しすぎて、106をローエンドに持って行った方が結局安価になったためと思われる。
ちなみに上表には(*)を付けた謎のGA103が湧いているが、これはTom's Hardwareが今年2月に報じたもので、ZotacがGA103ベースのGeForce RTX 3060 Tiをラインナップしたというもの。
ただ記事にもあるように、このGA103というのは本来デスクトップ用ではなく、GeForce RTX 3080 Ti Mobile用に開発したもので、これをデスクトップ用に転用した形であり、おまけに全世界で販売されているモデルではない(中国本土向け専用?)ので、例外としていいだろう。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ