NVIDIAのGPUも消費電力の低減が頭打ち
NVIDIAのGPUも万能とは言えない。下の表はV100/A100/H100の性能をまとめたものである。Tensor Coreを使えばそれなりに性能が向上するのは間違いないが、データ型を小さくすると精度が落ちやすいことを考えると、特にLLMでFP8を使うのは無理があり、TF32(実質FP19)かFP16が最低限、できればFP32にしたいところだろう。
| V100/A100/H100の性能(TDP以外の数字はTFlops) | ||||||
|---|---|---|---|---|---|---|
| V100 | A100 | H100 | ||||
| Peak FP16 Tensor with FP32 Acc | 125 | 312/624 | 989.4/1978.9 | |||
| Peak TF32 Tensor | NA | 156/312 | 494.7/989.4 | |||
| Peak FP64 Tensor | NA | 19.5 | 66.9 | |||
| Peak FP16 (non-Tensor) | 31.4 | 78 | 133.8 | |||
| Peak FP32 (non-Tensor) | 15.7 | 19.5 | 66.9 | |||
| Peak FP64 (non-Tensor) | 7.8 | 9.7 | 33.5 | |||
| TDP(W) | 300 | 400 | 700 | |||
TF32というデータ型はNVIDIAのウェブサイトに説明があるが、このページの説明によればBERT Large TrainingにおけるV100とA100の性能比はFP32で6倍、FP16で3倍でしかない(NVIDIAはTF32の精度はほぼFP32と同じ、としている)。
H100は上の表でわかるようにピーク値でA100の3倍の性能なので、FP32で18倍、FP16で9倍の性能になるが、TDPは300Wから700Wに増えているわけで、同一消費電力あたりの性能で言えばFP32で7.7倍、FP16で3.9倍弱といったあたり。せめて一桁違ってほしかったところだ。
ではこの先プロセスを微細化すればさらに消費電力が減るか? と言えば、もう最近は消費電力の低減が頭打ちになりつつあるのはご存じのとおり。最終的に10倍くらいまでは行けるかもしれないが、100倍はまず無理である。
むしろ、データフローやCompute-in-Memoryとか、もっと根本的な方法で消費電力を減らせるAIプロセッサーの方がこの分野ではむしろ可能性がある。ただしその性能をフルに生かそうとすると、CUDA以外のプログラミングフレームワークが必須になる。
つまるところCUDAを使う限りは頭打ちになる可能性が高いが、あまりにCUDAが普及しすぎていて他の、それこそPyTorchやONNXで最初からネットワークを構築するという機運がさっぱり湧き起こっていないあたりが、現状のボトルネックであり、これが理由でGPTの専門分野の学習などが進まず、結果として幻滅期に入るだろう、というのが筆者の予測である。
ここから抜けるためには、もう少し学習コストが下がる必要がある。それは消費電力もそうだし、カード単体の価格もそうである。今は先端プロセスを使いまくりなので、どうしても価格が高止まりするのは仕方がない。こうした問題をある程度解決するには時間が必要であり、学習のコストが下がり始めたあたりから本当の意味での生成AIの市場が立ち上がり始めると筆者は考えている。
問題はその頃にはアーキテクチャーの寡占化が起きそうなことだ。今の最有力候補はNVIDIAのGPUだが、果たしてAIプロセッサーが生き残ることは可能だろうか? もうしばらくは動向を眺めていくしかないだろう。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











