このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第730回

昨今のAI事情とプロセッサー事情 AIプロセッサーの昨今

2023年07月31日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

NVIDIAのGPUも消費電力の低減が頭打ち

 NVIDIAのGPUも万能とは言えない。下の表はV100/A100/H100の性能をまとめたものである。Tensor Coreを使えばそれなりに性能が向上するのは間違いないが、データ型を小さくすると精度が落ちやすいことを考えると、特にLLMでFP8を使うのは無理があり、TF32(実質FP19)かFP16が最低限、できればFP32にしたいところだろう。

V100/A100/H100の性能(TDP以外の数字はTFlops)
  V100 A100 H100
Peak FP16 Tensor with FP32 Acc 125 312/624 989.4/1978.9
Peak TF32 Tensor NA 156/312 494.7/989.4
Peak FP64 Tensor NA 19.5 66.9
Peak FP16 (non-Tensor) 31.4 78 133.8
Peak FP32 (non-Tensor) 15.7 19.5 66.9
Peak FP64 (non-Tensor) 7.8 9.7 33.5
TDP(W) 300 400 700

 TF32というデータ型はNVIDIAのウェブサイトに説明があるが、このページの説明によればBERT Large TrainingにおけるV100とA100の性能比はFP32で6倍、FP16で3倍でしかない(NVIDIAはTF32の精度はほぼFP32と同じ、としている)。

 H100は上の表でわかるようにピーク値でA100の3倍の性能なので、FP32で18倍、FP16で9倍の性能になるが、TDPは300Wから700Wに増えているわけで、同一消費電力あたりの性能で言えばFP32で7.7倍、FP16で3.9倍弱といったあたり。せめて一桁違ってほしかったところだ。

 ではこの先プロセスを微細化すればさらに消費電力が減るか? と言えば、もう最近は消費電力の低減が頭打ちになりつつあるのはご存じのとおり。最終的に10倍くらいまでは行けるかもしれないが、100倍はまず無理である。

 むしろ、データフローやCompute-in-Memoryとか、もっと根本的な方法で消費電力を減らせるAIプロセッサーの方がこの分野ではむしろ可能性がある。ただしその性能をフルに生かそうとすると、CUDA以外のプログラミングフレームワークが必須になる。

 つまるところCUDAを使う限りは頭打ちになる可能性が高いが、あまりにCUDAが普及しすぎていて他の、それこそPyTorchやONNXで最初からネットワークを構築するという機運がさっぱり湧き起こっていないあたりが、現状のボトルネックであり、これが理由でGPTの専門分野の学習などが進まず、結果として幻滅期に入るだろう、というのが筆者の予測である。

 ここから抜けるためには、もう少し学習コストが下がる必要がある。それは消費電力もそうだし、カード単体の価格もそうである。今は先端プロセスを使いまくりなので、どうしても価格が高止まりするのは仕方がない。こうした問題をある程度解決するには時間が必要であり、学習のコストが下がり始めたあたりから本当の意味での生成AIの市場が立ち上がり始めると筆者は考えている。

 問題はその頃にはアーキテクチャーの寡占化が起きそうなことだ。今の最有力候補はNVIDIAのGPUだが、果たしてAIプロセッサーが生き残ることは可能だろうか? もうしばらくは動向を眺めていくしかないだろう。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン