NVIDIAのGPUも消費電力の低減が頭打ち
NVIDIAのGPUも万能とは言えない。下の表はV100/A100/H100の性能をまとめたものである。Tensor Coreを使えばそれなりに性能が向上するのは間違いないが、データ型を小さくすると精度が落ちやすいことを考えると、特にLLMでFP8を使うのは無理があり、TF32(実質FP19)かFP16が最低限、できればFP32にしたいところだろう。
V100/A100/H100の性能(TDP以外の数字はTFlops) | ||||||
---|---|---|---|---|---|---|
V100 | A100 | H100 | ||||
Peak FP16 Tensor with FP32 Acc | 125 | 312/624 | 989.4/1978.9 | |||
Peak TF32 Tensor | NA | 156/312 | 494.7/989.4 | |||
Peak FP64 Tensor | NA | 19.5 | 66.9 | |||
Peak FP16 (non-Tensor) | 31.4 | 78 | 133.8 | |||
Peak FP32 (non-Tensor) | 15.7 | 19.5 | 66.9 | |||
Peak FP64 (non-Tensor) | 7.8 | 9.7 | 33.5 | |||
TDP(W) | 300 | 400 | 700 |
TF32というデータ型はNVIDIAのウェブサイトに説明があるが、このページの説明によればBERT Large TrainingにおけるV100とA100の性能比はFP32で6倍、FP16で3倍でしかない(NVIDIAはTF32の精度はほぼFP32と同じ、としている)。
H100は上の表でわかるようにピーク値でA100の3倍の性能なので、FP32で18倍、FP16で9倍の性能になるが、TDPは300Wから700Wに増えているわけで、同一消費電力あたりの性能で言えばFP32で7.7倍、FP16で3.9倍弱といったあたり。せめて一桁違ってほしかったところだ。
ではこの先プロセスを微細化すればさらに消費電力が減るか? と言えば、もう最近は消費電力の低減が頭打ちになりつつあるのはご存じのとおり。最終的に10倍くらいまでは行けるかもしれないが、100倍はまず無理である。
むしろ、データフローやCompute-in-Memoryとか、もっと根本的な方法で消費電力を減らせるAIプロセッサーの方がこの分野ではむしろ可能性がある。ただしその性能をフルに生かそうとすると、CUDA以外のプログラミングフレームワークが必須になる。
つまるところCUDAを使う限りは頭打ちになる可能性が高いが、あまりにCUDAが普及しすぎていて他の、それこそPyTorchやONNXで最初からネットワークを構築するという機運がさっぱり湧き起こっていないあたりが、現状のボトルネックであり、これが理由でGPTの専門分野の学習などが進まず、結果として幻滅期に入るだろう、というのが筆者の予測である。
ここから抜けるためには、もう少し学習コストが下がる必要がある。それは消費電力もそうだし、カード単体の価格もそうである。今は先端プロセスを使いまくりなので、どうしても価格が高止まりするのは仕方がない。こうした問題をある程度解決するには時間が必要であり、学習のコストが下がり始めたあたりから本当の意味での生成AIの市場が立ち上がり始めると筆者は考えている。
問題はその頃にはアーキテクチャーの寡占化が起きそうなことだ。今の最有力候補はNVIDIAのGPUだが、果たしてAIプロセッサーが生き残ることは可能だろうか? もうしばらくは動向を眺めていくしかないだろう。
この連載の記事
-
第786回
PC
Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ -
第785回
PC
Xeon 6のIOチップレットには意地でもDDR5のI/Fを搭載しないインテルの強いこだわり インテル CPUロードマップ -
第784回
PC
Intel 3は300~500MHz動作周波数が向上する インテル CPUロードマップ -
第783回
PC
Lunar LakeにはWi-Fi 7があるがPCIe x16レーンは存在しない インテル CPUロードマップ -
第782回
PC
Lunar LakeはNPUの動作周波数がアップし性能は2倍、ピーク性能は4倍に インテル CPUロードマップ -
第781回
PC
Lunar LakeのGPU動作周波数はおよそ1.65GHz インテル CPUロードマップ -
第780回
PC
Lunar Lakeに搭載される正体不明のメモリーサイドキャッシュ インテル CPUロードマップ -
第779回
PC
Lunar LakeではEコアの「Skymont」でもAI処理を実行するようになった インテル CPUロードマップ -
第778回
PC
Lunar LakeではPコアのハイパースレッディングを廃止 インテル CPUロードマップ -
第777回
PC
Lunar Lakeはウェハー1枚からMeteor Lakeの半分しか取れない インテル CPUロードマップ -
第776回
PC
COMPUTEXで判明したZen 5以降のプロセッサー戦略 AMD CPU/GPUロードマップ - この連載の一覧へ