ロードマップでわかる!当世プロセッサー事情 第764回
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ
2024年03月25日 12時00分更新
B100の1ダイあたりの性能はH100を下回る
つまり性能改善はTensor Coreだけ
ここで少しH100に戻る。H100はフル構成では144 SMで、おのおののSMは128個のCUDA Coreが搭載されている。ひるがえってB100は、1つのダイに搭載されているSMらしきものの数は20×4で80個である。2ダイ構成では160個なのでH100を超えることになるが、1ダイ同士でも1.25倍の性能向上があるはずなので、つじつまが合わない。とすると考えられるのは以下の4つのいずれかになる。
(1) ダイの写真を見るとSMが80個しかないように見えるが、これが160個分である。
(2) SMは80個であるが、一つのSMの中のCUDA Coreが倍増(256個)している。
(3) SMの数もCUDA Coreの数も同じだが、CUDA Coreあたりの性能が倍になっている。
(4) 性能改善はTensor Coreだけで、CUDA Coreの方は一切変更がない。
現時点ではなにしろホワイトペーパーも出ていないのでこのあたりはさっぱり不明である。ただ演算ユニットの数は160:144=1.11倍になっているのではないと判断している。あとは動作周波数の調整であって、仮に動作周波数がH100と比べて12.5%向上していれば、1.25倍という性能向上が実現できる計算になる。
TSMCの2021年10月の発表によれば、N4PはN4と比較して6%の性能改善(同一消費電力で動作周波数が向上)が図られたとしている。4NPが本当にN4Pベースなら、N4ベースの4Nに比べてやはり6%程度の性能改善が期待できるわけで、それほど消費電力を増やさずに動作周波数を引き上げることも不可能ではないだろう。
性能に関してもう少し話そう。H100とB100について、理論上のフルスペック性能(実際の製品ではなく、無効化されたコアなどもない状態でのピーク性能)を比較した場合、下表となる。
理論上のフルスペック性能 | ||||||
---|---|---|---|---|---|---|
H100 | B100 | |||||
FP64 | 34TFlops | 45TFlops | ||||
FP32 | 68TFlops | 90TFlops | ||||
TF32 | 1PFlops | 5PFlops | ||||
FP16/BF16 | 2PFlops | 10PFlops | ||||
FP8/INT8 | 4PFlops | 20PFlops | ||||
FP6 | N/A | 20PFlops | ||||
FP4 | N/A | 40PFlops |
B100は2ダイ構成でこれなので、1ダイあたりの性能で言えばH100を下回る計算になる。もっともSM数の比では、FP64がB100では0.281TFlops/SM、H100では0.258TFlops/SMで大差なく、動作周波数の比で考えればほぼ同等ということになる。要するに先の構成案の(4)が一番実情に近いのではないか、というのが筆者の考察である。
だとすると、ダイサイズがかなり大きいのも理解できる。1ダイあたりのSM数は144→80なので56%強であり、また2次キャッシュのサイズもダイ写真を比較する限りあまり差がない。TSMC N4→N4Pではエリアサイズの縮小の効果はないので、同じ面積≒同じ容量と考えていいからだ。
それにもかかわらずダイサイズがそれほど変わらず、トランジスタが増えているというのは、SMのサイズそのものが大型化していることになるし、ところがFP32/FP64では性能向上の効果がほとんど見られないというのは、要するにCUDA Coreの方は(内部のアーキテクチャーがどうなっているかはともかく)基本変わらないことになる。
であれば変更はTensor Coreの方が中心であり、こちらを大幅に強化したためにトランジスタ数も増え、エリアサイズも増えたということだと考えるのが妥当だろう。これは、AI性能だけでなくFP64の性能の強化も行なったAMDのInstinct MI300X(こちらはFP64で81.7TFlops)と非常に対照的である。
もっともMI300XはFP8のTensorで5.2PFlops程度でしかなく、20PFlopsのB100には遠くおよばないことになるわけで、そういう意味ではBlackwellはAI性能に全振りした、と評してもいいだろう。HPCに使えないわけではないが、性能/消費電力比や性能/コストを考えると無駄が多すぎる。
ただHPC市場とAIの市場、どちらが市場規模が大きいかを考えたら、AIに全振りするNVIDIAの戦略は妥当ではないかと思う。
長くなりすぎたので、システムの話は次回解説する。
この連載の記事
-
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ