NVIDIAのGPUも消費電力の低減が頭打ち
NVIDIAのGPUも万能とは言えない。下の表はV100/A100/H100の性能をまとめたものである。Tensor Coreを使えばそれなりに性能が向上するのは間違いないが、データ型を小さくすると精度が落ちやすいことを考えると、特にLLMでFP8を使うのは無理があり、TF32(実質FP19)かFP16が最低限、できればFP32にしたいところだろう。
V100/A100/H100の性能(TDP以外の数字はTFlops) | ||||||
---|---|---|---|---|---|---|
V100 | A100 | H100 | ||||
Peak FP16 Tensor with FP32 Acc | 125 | 312/624 | 989.4/1978.9 | |||
Peak TF32 Tensor | NA | 156/312 | 494.7/989.4 | |||
Peak FP64 Tensor | NA | 19.5 | 66.9 | |||
Peak FP16 (non-Tensor) | 31.4 | 78 | 133.8 | |||
Peak FP32 (non-Tensor) | 15.7 | 19.5 | 66.9 | |||
Peak FP64 (non-Tensor) | 7.8 | 9.7 | 33.5 | |||
TDP(W) | 300 | 400 | 700 |
TF32というデータ型はNVIDIAのウェブサイトに説明があるが、このページの説明によればBERT Large TrainingにおけるV100とA100の性能比はFP32で6倍、FP16で3倍でしかない(NVIDIAはTF32の精度はほぼFP32と同じ、としている)。
H100は上の表でわかるようにピーク値でA100の3倍の性能なので、FP32で18倍、FP16で9倍の性能になるが、TDPは300Wから700Wに増えているわけで、同一消費電力あたりの性能で言えばFP32で7.7倍、FP16で3.9倍弱といったあたり。せめて一桁違ってほしかったところだ。
ではこの先プロセスを微細化すればさらに消費電力が減るか? と言えば、もう最近は消費電力の低減が頭打ちになりつつあるのはご存じのとおり。最終的に10倍くらいまでは行けるかもしれないが、100倍はまず無理である。
むしろ、データフローやCompute-in-Memoryとか、もっと根本的な方法で消費電力を減らせるAIプロセッサーの方がこの分野ではむしろ可能性がある。ただしその性能をフルに生かそうとすると、CUDA以外のプログラミングフレームワークが必須になる。
つまるところCUDAを使う限りは頭打ちになる可能性が高いが、あまりにCUDAが普及しすぎていて他の、それこそPyTorchやONNXで最初からネットワークを構築するという機運がさっぱり湧き起こっていないあたりが、現状のボトルネックであり、これが理由でGPTの専門分野の学習などが進まず、結果として幻滅期に入るだろう、というのが筆者の予測である。
ここから抜けるためには、もう少し学習コストが下がる必要がある。それは消費電力もそうだし、カード単体の価格もそうである。今は先端プロセスを使いまくりなので、どうしても価格が高止まりするのは仕方がない。こうした問題をある程度解決するには時間が必要であり、学習のコストが下がり始めたあたりから本当の意味での生成AIの市場が立ち上がり始めると筆者は考えている。
問題はその頃にはアーキテクチャーの寡占化が起きそうなことだ。今の最有力候補はNVIDIAのGPUだが、果たしてAIプロセッサーが生き残ることは可能だろうか? もうしばらくは動向を眺めていくしかないだろう。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ