Radeon Instinctは
Tesla V100とほぼ同等の性能
ちなみに簡単な性能比較も示され、DGEMM、機械学習の推論、学習などで、NVIDIAのTesla V100とほぼ同等の性能を発揮することがアピールされた。以下もう少し細かく説明したい。
まずVega 20の構成であるが、基本的にはVega 10とまったく変わらない構成となる。NCUは64個で、1つのNCU内にSPを64個搭載するという構成も同じなので、SP数は4096個で横並びとなる。では何が変わったかというと、1つはFP64のサポートである。
前述の表にVEGA 10ベースのRadeon INSTINCT MI25の数字も入れてある(動作周波数、およびInt 8の性能は公式に発表されていないので、筆者の推定である)が、FP16/FP32に関してはMI25も含めておおむね動作周波数×SP数の比に近い性能が出ているのに、FP64ではMI25のみ落ち込んでいたのは、FP64のハードウェアがVega 10では実装されておらず、ソフトウェアで実施していたためである。
Vega 20ではこれがハードウェアで実装できるようになり、結果FP32のほぼ半分の性能が得られるようになった。実装としては、FP32の演算器2つでFP64を実行できるという効率を重視したものである。
なお、Tesla V100はFP32とFP64で別々の演算器を搭載するという実装になっており、どちらが良いというものではないにしても、Tesla V100のダイが巨大化した理由の一因はここにあると考えていい。
ちなみにサポートしたのはFP64のみならず、INT 4やINT 1もサポートしたという話であり、しかもMixed Precisionという、入出力は例えばINT 4やFP16で、途中の演算がINT 8とかFP32といった、複数の精度を組み合わせる処理にも対応するとしている。このあたりはそれぞれのSPの内部構造に変更が加えられたことになる。
逆に言うと、INT 8やFP32での演算性能改善に関しては、単に動作周波数の差以上のものはないというのがVega 20の特徴でもある。これはゲーミングGPUに転用するにはやや厳しいところではある。

この連載の記事
- 第722回 インテルの最新パッケージング技術でCPUが100×100mmに拡大 インテル CPUロードマップ
- 第721回 性能ではなく効率を上げる方向に舵を切ったTensilica AI Platform AIプロセッサーの昨今
- 第720回 Meteor Lakeには4次キャッシュが存在する インテル CPUロードマップ
- 第719回 EUV露光で堀った溝を削って広げる新技法Sculpta EUVによる露光プロセスの推移
- 第718回 引火性危険物で冷却しないといけない露光機 EUVによる露光プロセスの推移
- 第717回 要求にあわせて構成を変更できるSynopsysのARCシリーズ AIプロセッサーの昨今
- 第716回 Radeon Pro W7900/W7800が異様に安い価格で投入される理由 AMD GPUロードマップ
- 第715回 Emerald Rapidsは2023年第4四半期に量産開始 インテル CPUロードマップ
- 第714回 AMDのメディアアクセラレーター「Alveo MA35D」はナニがすごいのか?
- 第713回 Tenstorrentが日本支社を設立、自動運転の市場開拓が狙い AIプロセッサーの昨今
- 第712回 推論をわずか20mWで実行するエッジAIチップ「ERGO」 AIプロセッサーの昨今
- この連載の一覧へ