半年に1回の頻度になっているNVIDIAのロードマップ。前回はHPC向けのHopperだったが、今回はやっと発表されたAda Lovelaceの話である。
もう1ヵ月も前の話になるが、9月21日に開催されたGTC 2022の基調講演で、GeForce RTX 4080およびGeForce RTX 4090が発表された。もっともこの時に発表されたGeForce RTX 4080のうち、12GB版に関しては発売を中止する(少なくともGeForce RTX 4080の名は冠さない)ことを10月14日に発表しており、いきなり味噌がついた感もなくはない。
すでに、ハイエンドであるGeForce RTX 4090は店頭販売も始まっており、KTU氏による渾身のベンチマークその1、その2、その3が掲載されており、御覧になった読者も多いだろう。これに続き11月16日(米国時間)にはGeForce RTX 4080の発売も開始されるわけで、またKTU氏が徹夜でベンチマークを回しておられるであろうことは想像に難くない。
さて、Ada Lovelaceの内部構造の速報版および詳細解説もすでにKTU氏の手で行なわれているのであまり書くこともないのだが、少しだけ補足をしておきたい。
Ada Lovelaceのホワイトペーパーはすでに公開されているが、最新バージョン(v1.03)は12GB版GeForce RTX 4080のキャンセルを受けてAD104の記述が省かれている。ただその前のバージョンではAD102/AD103/AD104という3種類のダイがあることが明確に記述されている。
下表は、そのホワイトペーパー(v1.01)のAppendixに記されたスペック一覧から、AD102/103/104を抜き出してまとめた物である。
| Ada LovelaceのホワイトペーパーからAD102/103/104のスペックを抜き出したもの | ||||||
|---|---|---|---|---|---|---|
| GPU | GeForce RTX 4090 | RTX 4080 16GB | RTX 4080 12GB | |||
| GPU Codename | AD102 | AD103 | AD104 | |||
| GPU Architecture | NVIDIA Ada Lovelace | |||||
| GPCs | 11 | 7 | 5 | |||
| TPCs | 64 | 38 | 30 | |||
| SMs | 128 | 76 | 60 | |||
| CUDA Cores / SM | 128 | |||||
| CUDA Cores / GPU | 16384 | 9728 | 7680 | |||
| Tensor Cores / SM | 4 (4th Gen) | |||||
| Tensor Cores / GPU | 512 (4th Gen) | 304 (4th Gen) | 240 (4th Gen) | |||
| OFA TOPS | 305 | |||||
| RT Cores | 128 (3rd Gen) | 76 (3rd Gen) | 60 (3rd Gen) | |||
| GPU Boost Clock (MHz) | 2520 | 2505 | 2610 | |||
| Peak FP32 TFLOPS (non-Tensor) | 82.6 | 48.7 | 40.1 | |||
| Peak FP16 TFLOPS (non-Tensor) | 82.6 | 48.7 | 40.1 | |||
| Peak BF16 TFLOPS (non-Tensor) | 82.6 | 48.7 | 40.1 | |||
| Peak INT32 TOPS (non-Tensor) | 41.3 | 24.4 | 20 | |||
| RT TFLOPS | 191 | 112.7 | 92.7 | |||
| Peak FP8 Tensor TFLOPS with FP16 Accumulate | 660.6/1321.2 | 389.9/779.8 | 320.7/641.4 | |||
| Peak FP8 Tensor TFLOPS with FP32 Accumulate | 660.6/1321.2 | 389.9/779.8 | 320.7/641.4 | |||
| Peak FP16 Tensor TFLOPS with FP16 Accumulate | 330.3/660.6 | 194.9/389.8 | 160.4 /320.8 | |||
| Peak FP16 Tensor TFLOPS with FP32 Accumulate | 165.2/330.4 | 194.9/389.8 | 160.4 /320.8 | |||
| Peak BF16 Tensor TFLOPS with FP32 Accumulate | 165.2/330.4 | 194.9/389.8 | 160.4 /320.8 | |||
| Peak TF32 Tensor TFLOPS | 82.6/165.2 | 97.5/195 | 80.2/160.4 | |||
| Peak INT8 Tensor TOPS | 660.6/1321.2 | 389.9/779.82 | 320.7/641.4 | |||
| Peak INT4 Tensor TOPS | 1321.2/2642.4 | 779.8/1559.6 | 641.4/1282.8 | |||
| Frame Buffer Memory Size and Type | 24 GB GDDR6X | 16 GB GDDR6X | 12 GB GDDR6X | |||
| Memory Interface | 384-bit | 256-bit | 192-bit | |||
| Memory Clock (Data Rate) | 21 Gbps | 22.4 Gbps | 21 Gbps | |||
| Memory Bandwidth | 1008 GB/sec | 716.8 GB/sec | 504 GB/sec | |||
| ROPs | 176 | 112 | 80 | |||
| Pixel Fill-rate (Gigapixels/sec) | 443.5 | 280.6 | 208.8 | |||
| Texture Units | 512 | 304 | 240 | |||
| Texel Fill-rate (Gigatexels/sec) | 1290.2 | 761.5 | 626.4 | |||
| L1 Data Cache/Shared Memory | 16384 KB | 9728 KB | 7680 KB | |||
| L2 Cache Size | 72MB | 64MB | 48MB | |||
| Register File Size | 32768 KB | 19456 KB | 15360 KB | |||
| Video Engines | 2 x NVENC (8th Gen)1 x NVDEC (5th Gen) | |||||
| TGP (Total Graphics Power) | 450 W | 320 W | 285 W | |||
| Transistor Count | 76.3 Billion | 45.9 Billion | 35.8 Billion | |||
| Die Size | 608.5 mm2 | 378.6 mm2 | 294.5 mm2 | |||
| Manufacturing Process | TSMC 4N NVIDIA Custom Process | |||||
| PCI Express Interface | Gen 4 | |||||
一番特徴的と思えるのは、AD103の出現だろう。下表は、Pascal以降のコンシューマー向け製品のうち、コアの型番と製品の関係をまとめたものだ。通常102がエンスージアストもしくはワークステーションのトップエンド向けという位置づけにあり、その下に104が来て、これはxx80ないしxx70グレードの製品となる。
| コアの型番と製品の関係 | ||||||
|---|---|---|---|---|---|---|
| Codename | Ada Lovelace(AD) | Ampere(GA) | Turing(TU) | Pascal(GP) | ||
| 102 | RTX 4090 | RTX 3090 Ti RTX 3090 RTX 3080 Ti RTX 3080 |
Titan RTX RTX 2080 Ti |
Titan Xp Titan X GTX 1080 Ti |
||
| 103 | RTX 4080 | RTX 3060 Ti(*) | ||||
| 104 | (RTX 4080 12GB) | RTX 3070 Ti RTX 3070 RTX 3060 Ti |
RTX 2080 Super RTX 2080 RTX 2070 Super |
GTX 1080 GTX 1070 Ti GTX 1070 GTX 1060 |
||
| 106 | RTX 3060 RTX 3050 |
RTX 2070 RTX 2060 Super RTX 2060 |
GTX 1060 GTX 1050 Ti |
|||
| 107 | GTX 1050 | |||||
| 108 | GTX 1030 GTX 1010 |
|||||
メインストリーム向けはその下の106グレードになり、ここがxx70ないしxx60グレードである。107/108はバリューないしOEM向けという扱いで、Pascal世代ではGP107/GP108という製品があったほか、表には入れていないがTuring世代のGeForce GTX 1600シリーズの場合はGeForce GTX 1630/1650(の一部)がTU117を使っているが、Ampere世代では106がローエンドになってしまっている。
そろそろダイを複数作るための初期コストが高騰しすぎて、106をローエンドに持って行った方が結局安価になったためと思われる。
ちなみに上表には(*)を付けた謎のGA103が湧いているが、これはTom's Hardwareが今年2月に報じたもので、ZotacがGA103ベースのGeForce RTX 3060 Tiをラインナップしたというもの。
ただ記事にもあるように、このGA103というのは本来デスクトップ用ではなく、GeForce RTX 3080 Ti Mobile用に開発したもので、これをデスクトップ用に転用した形であり、おまけに全世界で販売されているモデルではない(中国本土向け専用?)ので、例外としていいだろう。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ













