B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍　NVIDIA GPUロードマップ

2024年03月25日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

B100の1ダイあたりの性能はH100を下回る
つまり性能改善はTensor Coreだけ

　ここで少しH100に戻る。H100はフル構成では144 SMで、おのおののSMは128個のCUDA Coreが搭載されている。ひるがえってB100は、１つのダイに搭載されているSMらしきものの数は20×4で80個である。2ダイ構成では160個なのでH100を超えることになるが、1ダイ同士でも1.25倍の性能向上があるはずなので、つじつまが合わない。とすると考えられるのは以下の4つのいずれかになる。

(1) ダイの写真を見るとSMが80個しかないように見えるが、これが160個分である。
(2) SMは80個であるが、一つのSMの中のCUDA Coreが倍増(256個)している。
(3) SMの数もCUDA Coreの数も同じだが、CUDA Coreあたりの性能が倍になっている。
(4) 性能改善はTensor Coreだけで、CUDA Coreの方は一切変更がない。

　現時点ではなにしろホワイトペーパーも出ていないのでこのあたりはさっぱり不明である。ただ演算ユニットの数は160:144＝1.11倍になっているのではないと判断している。あとは動作周波数の調整であって、仮に動作周波数がH100と比べて12.5%向上していれば、1.25倍という性能向上が実現できる計算になる。

　TSMCの2021年10月の発表によれば、N4PはN4と比較して6%の性能改善(同一消費電力で動作周波数が向上)が図られたとしている。4NPが本当にN4Pベースなら、N4ベースの4Nに比べてやはり6%程度の性能改善が期待できるわけで、それほど消費電力を増やさずに動作周波数を引き上げることも不可能ではないだろう。

　性能に関してもう少し話そう。H100とB100について、理論上のフルスペック性能(実際の製品ではなく、無効化されたコアなどもない状態でのピーク性能)を比較した場合、下表となる。

理論上のフルスペック性能
	H100	B100
FP64	34TFlops	45TFlops
FP32	68TFlops	90TFlops
TF32	1PFlops	5PFlops
FP16/BF16	2PFlops	10PFlops
FP8/INT8	4PFlops	20PFlops
FP6	N/A	20PFlops
FP4	N/A	40PFlops

　B100は2ダイ構成でこれなので、1ダイあたりの性能で言えばH100を下回る計算になる。もっともSM数の比では、FP64がB100では0.281TFlops/SM、H100では0.258TFlops/SMで大差なく、動作周波数の比で考えればほぼ同等ということになる。要するに先の構成案の(4)が一番実情に近いのではないか、というのが筆者の考察である。

　だとすると、ダイサイズがかなり大きいのも理解できる。1ダイあたりのSM数は144→80なので56%強であり、また2次キャッシュのサイズもダイ写真を比較する限りあまり差がない。TSMC N4→N4Pではエリアサイズの縮小の効果はないので、同じ面積≒同じ容量と考えていいからだ。

　それにもかかわらずダイサイズがそれほど変わらず、トランジスタが増えているというのは、SMのサイズそのものが大型化していることになるし、ところがFP32/FP64では性能向上の効果がほとんど見られないというのは、要するにCUDA Coreの方は(内部のアーキテクチャーがどうなっているかはともかく)基本変わらないことになる。

　であれば変更はTensor Coreの方が中心であり、こちらを大幅に強化したためにトランジスタ数も増え、エリアサイズも増えたということだと考えるのが妥当だろう。これは、AI性能だけでなくFP64の性能の強化も行なったAMDのInstinct MI300X(こちらはFP64で81.7TFlops)と非常に対照的である。

　もっともMI300XはFP8のTensorで5.2PFlops程度でしかなく、20PFlopsのB100には遠くおよばないことになるわけで、そういう意味ではBlackwellはAI性能に全振りした、と評してもいいだろう。HPCに使えないわけではないが、性能/消費電力比や性能/コストを考えると無駄が多すぎる。

　ただHPC市場とAIの市場、どちらが市場規模が大きいかを考えたら、AIに全振りするNVIDIAの戦略は妥当ではないかと思う。

　長くなりすぎたので、システムの話は次回解説する。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ

B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ

B100の1ダイあたりの性能はH100を下回る つまり性能改善はTensor Coreだけ

この連載の記事

この記事の編集者は以下の記事をオススメしています

PC GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ

PCパーツ NVIDIA、クラウドゲーミングのGeForce NOWを日本で提供

デジタル アニメやゲームのようにAIデジタルヒューマノイドが人間を助ける日を、NVIDIAが実現するかもしれない

注目ニュース

ピックアップ

アスキーストア's 人気ランキング ベスト5

B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍　NVIDIA GPUロードマップ

B100の1ダイあたりの性能はH100を下回る
つまり性能改善はTensor Coreだけ

PC
GB200 Grace Blackwell SuperchipのTDPは1200W　NVIDIA GPUロードマップ

PCパーツ
NVIDIA、クラウドゲーミングのGeForce NOWを日本で提供

デジタル
アニメやゲームのようにAIデジタルヒューマノイドが人間を助ける日を、NVIDIAが実現するかもしれない

アスキーストア's 人気ランキングベスト5