ロードマップでわかる!当世プロセッサー事情 第765回
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ
2024年04月01日 12時00分更新
Blackwellアーキテクチャーは
コンシューマー向けにも適用されるかもしれない
前回に引き続きBlackwellについて解説する。ちなみに現時点でもまだBlackwellのホワイトペーパーが公開されていない(Architecture Technical Briefは公開されたが、ここには個々のSMの構造などはまだ含まれていない)ので、前回説明した内容がどの程度妥当だったのかの確認はできていない。
あともう1つ。これは公式発表ではないのだが、このBlackwellアーキテクチャーはデータセンター向けだけではなく、コンシューマー向けにも適用される予定という話が流れている。実際以下のとおりリリースされてきている。
これまでリリースされたGPU | ||||||
---|---|---|---|---|---|---|
登場年 | コードネーム | GPU | ||||
2012年 | Kepler | GeForce GTX 600/700 | ||||
2014年 | Maxwell | GeForce GTX 750 | ||||
2016年 | Pascal | GeForce GTX 1000 | ||||
2018年 | Turing | GeForce RTX 2000 | ||||
2020年 | Ampere | GeForce RTX 3000 | ||||
2022年 | Ada | GeForce RTX 4000 |
今年は刷新されると考えるのが普通だし、そうなるとBlackwellアーキテクチャーを使うと考えるのが妥当と言えば妥当である。ただその一方で、以下のようなあまりコンシューマー向けに向かない特徴が気になるところである。
- プロセスがTSMC 4NPで、多少速度は上がってるにしてもトランジスタ密度はどの程度向上しているか疑問
- NVIDIAはBlackwellでマイクロアーキテクチャーを刷新したと説明しているが、その一方で性能に関してはTensor Coreの大幅な性能改善がメインであって、CUDA Coreの方はどこまで性能が上がっているのか不明(スペックだけ見ているとCUDA Coreの方の性能向上はほぼなさそうに見える)
- Ada Lovelace世代のAD102は609mm2で128SMであり、つまりSMあたり5.97mm2ほどでの実装となっている。これに対しB100/B200のものは783.4mm2で80SMと前回推定できており、つまりSMあたり9.79mm2ほどのエリアサイズとなる。この大型化の理由はTensor Coreの大幅強化と筆者は考えているが、逆に言えばTensor Coreを利用しないGPU的な用途にBlackwellをそのまま持ち込むのは猛烈に効率が悪い
もちろん、例えばBlackwell世代はアプリケーションの設定と無関係に常時DLSSがTensor Coreで稼働しており、なのでGPUでのレンダリングの負荷が相対的に低くなって結果として性能が向上する、なんて方針であればこれでも良さそうだが、正直ちょっと考えにくい。あるいはTensor Coreが実はRay Tracing Engineの機能も搭載しているなどならあり得るのかもしれないが。
仮にBlackwell世代からそのまま持ち込んでうれしい機能があるとすれば、マルチチップ構成だろうか? もしこれがコンシューマー向けGPUにも適用できるのであれば、それは意味があるだろう。ただ同じくマルチチップ構成(正確に言えばマルチGCD)を目論みつつ開発中止で消えてしまったNavi 40のことを考えると、AI向けでうまくいったからといって、GPU向けにそのまま使えるとは限らないので、これも可能性は低いだろう。
まだ断言はできないが、今年登場すると思われるコンシューマー向けのアーキテクチャーは、Blackwellと異なるものになる気がする。これは過去にも事例がある。2018年はデータセンター向けがVolta、コンシューマー向けがTuringだった。Voltaも後追いでTitan Vというコンシューマー向け(?)のラインナップは用意されたが、基本はデータセンター向けのみである。
Blackwellも同様にメインはAI推論/学習向けで、コンシューマー向けはまた違ったもの(そのコード名がBlackwellを継承するかどうかも不明)になるのではないかというのが筆者の推定である。このあたり、Blackwellのホワイトペーパーが公開されたら、もう少しクリアになるのだが。
この連載の記事
-
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ - この連載の一覧へ