Radeon Instinctは
Tesla V100とほぼ同等の性能
ちなみに簡単な性能比較も示され、DGEMM、機械学習の推論、学習などで、NVIDIAのTesla V100とほぼ同等の性能を発揮することがアピールされた。以下もう少し細かく説明したい。
まずVega 20の構成であるが、基本的にはVega 10とまったく変わらない構成となる。NCUは64個で、1つのNCU内にSPを64個搭載するという構成も同じなので、SP数は4096個で横並びとなる。では何が変わったかというと、1つはFP64のサポートである。
前述の表にVEGA 10ベースのRadeon INSTINCT MI25の数字も入れてある(動作周波数、およびInt 8の性能は公式に発表されていないので、筆者の推定である)が、FP16/FP32に関してはMI25も含めておおむね動作周波数×SP数の比に近い性能が出ているのに、FP64ではMI25のみ落ち込んでいたのは、FP64のハードウェアがVega 10では実装されておらず、ソフトウェアで実施していたためである。
Vega 20ではこれがハードウェアで実装できるようになり、結果FP32のほぼ半分の性能が得られるようになった。実装としては、FP32の演算器2つでFP64を実行できるという効率を重視したものである。
なお、Tesla V100はFP32とFP64で別々の演算器を搭載するという実装になっており、どちらが良いというものではないにしても、Tesla V100のダイが巨大化した理由の一因はここにあると考えていい。
ちなみにサポートしたのはFP64のみならず、INT 4やINT 1もサポートしたという話であり、しかもMixed Precisionという、入出力は例えばINT 4やFP16で、途中の演算がINT 8とかFP32といった、複数の精度を組み合わせる処理にも対応するとしている。このあたりはそれぞれのSPの内部構造に変更が加えられたことになる。
逆に言うと、INT 8やFP32での演算性能改善に関しては、単に動作周波数の差以上のものはないというのがVega 20の特徴でもある。これはゲーミングGPUに転用するにはやや厳しいところではある。

この連載の記事
-
第815回
デジタル
3次キャッシュがスリムになっていたZen 5、ISSCCで公開された詳報 AMD CPUロードマップ -
第814回
PC
インテルがチップレット接続の標準化を画策、小さなチップレットを多数つなげて性能向上を目指す インテル CPUロードマップ -
第813回
PC
Granite Rapid-DことXeon 6 SoCを12製品発表、HCCとXCCの2種類が存在する インテル CPUロードマップ -
第812回
PC
2倍の帯域をほぼ同等の電力で実現するTSMCのHPC向け次世代SoIC IEDM 2024レポート -
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート - この連載の一覧へ