ロードマップでわかる!当世プロセッサー事情 第563回
Ampere採用GPU「A100」発表、Titan Aが発売される可能性も NVIDIA GPUロードマップ
2020年05月18日 12時00分更新
AIプロセッサーの昨今はちょっとだけお休みいただいて、5月14日に行なわれたGTC 2020の基調講演の内容を解説したい。言うまでもなくAmpereアーキテクチャーである。
今年のGTC(GPU Technology Conference)はオンラインでの開催となり、Jensen Huang CEOによる基調講演は8分割されてYouTubeにアップロードされている。いわゆるライブではなく、あらかじめ撮影したものを一挙公開の形で筆者も最初戸惑った。
ちなみに基調講演の模様はYouTubeのNVIDIAチャネルで視聴可能なほか、GTCのサイトでも参照できる。
さてその基調講演ではさまざまな話題が取り上げられたが、今回はAmpereを中心に説明しよう。つまり連載535回で予想した内容の答え合わせである。
さてそのAmpereであるが、予想通りデータセンター向けの製品であり、コンシューマー市場に下ろすことはまったく考えていない、ある意味振り切ったものだった。まずはスペックから見ていこう。
Voltaに酷似するがGPCの数などが違う
NVIDIA A100 Tensor Core GPU
Ampereアーキテクチャーを搭載するNVIDIA A100 Tensor Core GPUは、2種類のパッケージで提供される。1つ目が新しいSXM4モジュールに搭載されるものだ。
実際にはこのA100の上には巨大なヒートシンクが装着されて収まる形になるので、これを直接目にすることはないと思う。
さてそのA100であるが、まず大まかにスペックを並べると以下の通りとなる。
- ダイサイズ 826mm2。TSMCのN7プロセスで製造。トランジスタ数は542億個
- メモリー:1.6Gbps HBM2×6(実際は×5)。8GBスタックを利用し、最大容量48GB(実際は40GB)
- 内部は8GPC(GPU processing cluster)構成(ただし実際は7GPC)。1つのGPCには7~8個のTPC(Texrure Processing Cluster)を搭載し、TPCあたり2つのSM(Shader Module)を搭載する。したがってシステム全体では128SM構成で、このうち108SMが利用可能。
- SMの内部構造は、一見するとVoltaのそれと大きな違いはない。ただしTensor Coreの数は、VoltaはSMあたり8つだったのが、Ampereでは4つに減っている。SMあたりのINT32/FP32/FP64コアの数はいずれも64で、これはVoltaと変わりがない。
- コアの動作周波数は最大(Boost)で1410MHzと、VoltaベースのGV100(1530MHz)やPascalベースのGP100(1480MHz)よりもやや控えめ
- ただし性能は圧倒しており、整数/浮動小数点演算性能では、以下の数字が示されている。
整数/浮動小数点演算性能 | ||||||
---|---|---|---|---|---|---|
GP100 | GV100 | GA100 | ||||
INT32(TOPS) | 15.7 | 19.5 | ||||
FP16(TFlops) | 21.2 | 31.4 | 78.0 | |||
BP16(TFlops) | N/A | N/A | 39.0 | |||
FP32(TFlops) | 10.6 | 15.7 | 19.5 | |||
FP64(TFlops) | 5.3 | 7.8 | 9.7 |
NVIDIA A100 Tensor Core GPUの演算性能 | ||||||
---|---|---|---|---|---|---|
FP16 | 312/624TFlops | |||||
FP16 w/FP32 | 312/624TFlops | |||||
BF16 w/FP32 | 312/624TFlops | |||||
TF32 | 156/312TFlops | |||||
FP16 | 19.5TFlops | |||||
INT8 | 624/1248TOPS | |||||
INT4 | 128/2496TOPS |
- モジュール全体の消費電力(TDP)は400W
この連載の記事
-
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ