ロードマップでわかる!当世プロセッサー事情 第563回
Ampere採用GPU「A100」発表、Titan Aが発売される可能性も NVIDIA GPUロードマップ
2020年05月18日 12時00分更新
AIプロセッサーの昨今はちょっとだけお休みいただいて、5月14日に行なわれたGTC 2020の基調講演の内容を解説したい。言うまでもなくAmpereアーキテクチャーである。
今年のGTC(GPU Technology Conference)はオンラインでの開催となり、Jensen Huang CEOによる基調講演は8分割されてYouTubeにアップロードされている。いわゆるライブではなく、あらかじめ撮影したものを一挙公開の形で筆者も最初戸惑った。
ちなみに基調講演の模様はYouTubeのNVIDIAチャネルで視聴可能なほか、GTCのサイトでも参照できる。
さてその基調講演ではさまざまな話題が取り上げられたが、今回はAmpereを中心に説明しよう。つまり連載535回で予想した内容の答え合わせである。
さてそのAmpereであるが、予想通りデータセンター向けの製品であり、コンシューマー市場に下ろすことはまったく考えていない、ある意味振り切ったものだった。まずはスペックから見ていこう。
Voltaに酷似するがGPCの数などが違う
NVIDIA A100 Tensor Core GPU
Ampereアーキテクチャーを搭載するNVIDIA A100 Tensor Core GPUは、2種類のパッケージで提供される。1つ目が新しいSXM4モジュールに搭載されるものだ。
実際にはこのA100の上には巨大なヒートシンクが装着されて収まる形になるので、これを直接目にすることはないと思う。
さてそのA100であるが、まず大まかにスペックを並べると以下の通りとなる。
- ダイサイズ 826mm2。TSMCのN7プロセスで製造。トランジスタ数は542億個
- メモリー:1.6Gbps HBM2×6(実際は×5)。8GBスタックを利用し、最大容量48GB(実際は40GB)
- 内部は8GPC(GPU processing cluster)構成(ただし実際は7GPC)。1つのGPCには7~8個のTPC(Texrure Processing Cluster)を搭載し、TPCあたり2つのSM(Shader Module)を搭載する。したがってシステム全体では128SM構成で、このうち108SMが利用可能。
- SMの内部構造は、一見するとVoltaのそれと大きな違いはない。ただしTensor Coreの数は、VoltaはSMあたり8つだったのが、Ampereでは4つに減っている。SMあたりのINT32/FP32/FP64コアの数はいずれも64で、これはVoltaと変わりがない。
- コアの動作周波数は最大(Boost)で1410MHzと、VoltaベースのGV100(1530MHz)やPascalベースのGP100(1480MHz)よりもやや控えめ
- ただし性能は圧倒しており、整数/浮動小数点演算性能では、以下の数字が示されている。
整数/浮動小数点演算性能 | ||||||
---|---|---|---|---|---|---|
GP100 | GV100 | GA100 | ||||
INT32(TOPS) | 15.7 | 19.5 | ||||
FP16(TFlops) | 21.2 | 31.4 | 78.0 | |||
BP16(TFlops) | N/A | N/A | 39.0 | |||
FP32(TFlops) | 10.6 | 15.7 | 19.5 | |||
FP64(TFlops) | 5.3 | 7.8 | 9.7 |
NVIDIA A100 Tensor Core GPUの演算性能 | ||||||
---|---|---|---|---|---|---|
FP16 | 312/624TFlops | |||||
FP16 w/FP32 | 312/624TFlops | |||||
BF16 w/FP32 | 312/624TFlops | |||||
TF32 | 156/312TFlops | |||||
FP16 | 19.5TFlops | |||||
INT8 | 624/1248TOPS | |||||
INT4 | 128/2496TOPS |
- モジュール全体の消費電力(TDP)は400W
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ