Radeon Instinctは
Tesla V100とほぼ同等の性能
ちなみに簡単な性能比較も示され、DGEMM、機械学習の推論、学習などで、NVIDIAのTesla V100とほぼ同等の性能を発揮することがアピールされた。以下もう少し細かく説明したい。
まずVega 20の構成であるが、基本的にはVega 10とまったく変わらない構成となる。NCUは64個で、1つのNCU内にSPを64個搭載するという構成も同じなので、SP数は4096個で横並びとなる。では何が変わったかというと、1つはFP64のサポートである。
前述の表にVEGA 10ベースのRadeon INSTINCT MI25の数字も入れてある(動作周波数、およびInt 8の性能は公式に発表されていないので、筆者の推定である)が、FP16/FP32に関してはMI25も含めておおむね動作周波数×SP数の比に近い性能が出ているのに、FP64ではMI25のみ落ち込んでいたのは、FP64のハードウェアがVega 10では実装されておらず、ソフトウェアで実施していたためである。
Vega 20ではこれがハードウェアで実装できるようになり、結果FP32のほぼ半分の性能が得られるようになった。実装としては、FP32の演算器2つでFP64を実行できるという効率を重視したものである。
なお、Tesla V100はFP32とFP64で別々の演算器を搭載するという実装になっており、どちらが良いというものではないにしても、Tesla V100のダイが巨大化した理由の一因はここにあると考えていい。
ちなみにサポートしたのはFP64のみならず、INT 4やINT 1もサポートしたという話であり、しかもMixed Precisionという、入出力は例えばINT 4やFP16で、途中の演算がINT 8とかFP32といった、複数の精度を組み合わせる処理にも対応するとしている。このあたりはそれぞれのSPの内部構造に変更が加えられたことになる。
逆に言うと、INT 8やFP32での演算性能改善に関しては、単に動作周波数の差以上のものはないというのがVega 20の特徴でもある。これはゲーミングGPUに転用するにはやや厳しいところではある。

この連載の記事
- 第738回 Intel 4は歩留まりを高めるためにEUVの工程を減らしている インテル CPUロードマップ
- 第737回 Sierra Forestの内部構造はGracemontとほぼ変わらない インテル CPUロードマップ
- 第736回 第6世代XeonのGranite Rapidsでは大容量L3を搭載しMCR-DIMMにも対応 インテル CPUロードマップ
- 第735回 Meteor Lakeはフル稼働時の消費電力が大きい可能性あり インテル CPUロードマップ
- 第734回 Meteor Lakeは歩留まりが50%でも月産約36万個 インテル CPUロードマップ
- 第733回 複数の命令をまとめて処理する基本命令セットが功を奏す RISC-Vプロセッサー遍歴
- 第732回 なぜRISC-Vは急速に盛り上がったのか? RISC-Vプロセッサー遍歴
- 第731回 インテルの新命令セットでついに16bitモードが廃止に
- 第730回 昨今のAI事情とプロセッサー事情 AIプロセッサーの昨今
- 第729回 電気を利用せずにスイッチングできるGoogle TPU v4 AIプロセッサーの昨今
- 第728回 2024年に提供開始となるSF3プロセスの詳細 サムスン 半導体ロードマップ
- この連載の一覧へ