前へ 1 2 3 次へ

メモリー帯域を増やして性能を向上させたRDNA 3の内部構造　AMD GPUロードマップ

2022年11月21日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

　前回に引き続き、RDNA 3の内部解説を説明しよう。今回は内部構造の話である。下の画像がNavi 31の内部構造の全景である。比較対象のために、Navi 21の内部構造をその下に掲載する。

他にもL0/L1は大幅に増量されており、これらの効果でインフィニティ・キャッシュの減量(128MB→96MB)があっても十分性能を維持できたということはありそうである

こちらはNavi 21の内部構造

　このレベルで見て判る違いは以下のとおりだ。

Shader Engineが4→6へ強化。ただし1つのShader Engineに含まれるCUの数は10→8に減った。
2次キャッシュが4MB(256KB×16way)から6MB(256KB×24way)に増量

　PCI Expressに関しては、Gen 5は不要と判断した(実際純粋なGPUとして使う限りにおいてはGen 4で十分である)とのこと。またCXLにも未対応だそうだが、これも別に不思議ではない。

　さて、CUあたりの性能が倍になった、という話はRadeon RX 7000シリーズの発表記事でも触れられているが、その詳細が下の画像だ。

“Compute Unit Pair”という新たな用語を生み出しているが、要するにRDNA 2で導入されたWGPのことである。初代RDNAにはなかった概念だからあえてWGPと書かなかったのかもしれない

　わかりづらいが、2つのCUでScalar CacheやShader Instruction Cache、Shared Memoryを共有しているという話で、ここは初代RDNAとまったく一緒である。

　異なるのは演算ユニットの数である。RDNA/RDNA 2では1サイクルあたり2つの32-Wide SIMDが動作していた。そもそもGCNの世代はWave 64(64 Threadの塊)に対して、4つの16-Wide SIMDが同時に動作することで、1サイクルで1 Wave 64の処理を行なう形になっていた。

　これがRDNA/RDNA 2ではWave 32(32スレッドの塊)に分割され、そのWave 32を32-wide SIMDで処理する格好になっていた。RDNA/RDNA 2ではこの32-wide SIMDがCUあたり2つ搭載されており、1サイクルあたりWave 32を2つ、つまりWave 64を1つと同じ処理性能になっていた。

　RDNA 3では、このWave 32を1サイクルあたり4つ処理できるようになっている。要するにSIMDエンジンが倍増した格好だ。もっとも内部的に見ると、やや複雑な話になっている。

　というのは、Wave 64が再び復活しているからだ。SIMDエンジンも64-Wide SIMDになっている。ただしこのSIMDエンジン、1サイクルあたりWave 64を1つ、もしくはWave 32を2つ処理できるようになっており、SIMDエンジンあたりのピーク性能はRDNA 2までと変わらない。したがって内部を見ると、32-Wide SIMDエンジン×2と見えないこともないが、実装としては64-Wide SIMDと考えた方が正しい。

なぜ再びWave 64が復活したかの説明はなかったのだが、やはりアプリケーションによってはWave 64の方が効率的だったということかもしれない

　このWave 64とWave 32はさすがに混在できないようで、どちらかで動くことになる。このSIMDエンジンが、上の画像にあるように、1つのCUに2つあるわけで、この結果Wave 64なら2つ、Wave 32なら4つを1サイクルで処理できることになる。

　これで性能はRDNA 2世代に比べてきっちり倍である。実際にはCU数も80から96と2割増しになっているわけで、同じ動作周波数だとしてもピーク性能はRDNA 2(というかNavi 21)の2.4倍になる計算だ。他にもあちこち手を入れることで、効率そのものも17.4%向上させたとあり、これを加味すると同一周波数での性能はNavi 21比で2.8倍あまりになる。

　ちなみに素朴な疑問としてあったのは「なぜCU数を増加させず、CU内の演算能力を倍増させたか」であるが、これは何人かの人に聞いたものの明確な回答はなかった。

　ただMike Mantor氏(Corporate Fellow & Chief GPU Architect)によれば「CU数を倍増させた場合も当然検討したし、他のアプローチも試してみた。その中で(今回の実装が)一番性能が出た」という返答であった。CU数をむやみに増やすとスケジューラーの側が追い付かなかった、というあたりが正直なところなのかもしれない。

　なおWGPに関しては引き続き1 WGP＝2 CUの関係が維持されているそうで、RDNA 2までの仕組みを大きく変えることなく性能を倍増させるにはCUあたりの性能を引き上げるのが一番楽だった、という可能性もある。

　これだけでもわりと性能向上が著しいわけだが、これに加えて新しくDot積の演算エンジンが追加された。2つ前の画像で“AI Matrix Accelerator”と記述されているユニットのことだ。Dot積(Dot Products)はAIプロセッサー連載で何度も出てきているのでおなじみかと思うが、下の画像の右側にその定義が載っている。

AブロックとBブロックで、アドレスのアクセスの仕方が違う(行列演算ではよくありがち)のがわかるかと思う。このあたりをまとめてやってくれる、つまり複雑なデータ入れ替えの手間が省けるのも性能向上に寄与する

　RDNA 3の場合、FP16/BF16/Int 8に対してDot 2(2項目のDot積)が、Int 4に対してはDot 4(4項目のDot積)がそれぞれ実行可能である。どちらも64-Wideになっており、Dot 2の場合は256Flops(1サイクルで乗算と加算をそれぞれ2つ実行するから)、Dot 4の場合は512Flops(同4つ実行)という計算になる。

　要するにこれ、NVIDIAのTensor CoreやインテルのXMXと同じような仕組みで、畳み込み演算を高速化するアクセラレーターと考えれば良い。このWMMA(Wave Matrix Multiply Accumulate)の動作を別の図で示したのが下の画像だ。

この図式はTensor Coreなどと大差ない。処理がDot Productsである以上、他にやりようがないというべきか

　このDot 2なりDot 4の命令を毎サイクル発行するのは、プログラムの肥大化やスケジューラーの負荷増大につながるわけだが、WMMAでは32サイクルまとめての処理が可能、つまり1回命令を発行すると、32サイクルずーっとDot 2/4の演算を行なってくれるわけであり、この間にプログラムは他の処理をさせることも可能だ。これにより効率的にAI処理が可能、という話になっている。

※お詫びと訂正：RDNA/RDNA 2のWaveに関する記述に誤りがありました。記事を訂正してお詫びします。（2022年11月24日）

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ

この連載の記事

AMD記事アクセスランキング

お勧めのAMD記事

デジタル
2025年11月17日更新

Zen 6＋Zen 6c、そしてZen 7へ！ EPYCは256コアへ向かう　AMD CPUロードマップ
デジタル
2025年10月09日更新

Ryzen 7 9800X3Dと9700Xはどっちが良いの？！ WQHDゲーミングに最適なRadeon RX 9060 XT搭載PCの最強CPUはこれだ！
sponsored
2025年09月24日更新

触ってわかった！ Radeon RX 9070 XT最新ドライバーでFPSゲームが爆速＆高画質に進化、ストレスフリーな快適体験へ
sponsored
2025年09月13日更新

プロフェッショナルへ捧ぐ“怪物”―AMD Ryzen Threadripper 9000シリーズ搭載PC、国内BTOメーカーから一挙集結
デジタル
2025年08月11日更新

HEDTの王者Ryzen Threadripper 9980X／9970X、ついにゲーミング性能も大幅進化

AMD

メモリー帯域を増やして性能を向上させたRDNA 3の内部構造　AMD GPUロードマップ

この連載の記事

デジタル
大幅にダイサイズを縮小できたRDNA 3のチップレット構造　AMD GPUロードマップ

PC
ロードマップでわかる！当世プロセッサー事情（目次）

デジタル
AMD Radeon RX 7900 XTX/XTがRTX 4080を上回れるのか？【前編】

デジタル
AMD Radeon RX 7900 XTX/XTがRTX 4080を上回れるのか？【後編】

AMD記事アクセスランキング

お勧めのAMD記事

Zen 6＋Zen 6c、そしてZen 7へ！ EPYCは256コアへ向かう　AMD CPUロードマップ

Ryzen 7 9800X3Dと9700Xはどっちが良いの？！ WQHDゲーミングに最適なRadeon RX 9060 XT搭載PCの最強CPUはこれだ！

触ってわかった！ Radeon RX 9070 XT最新ドライバーでFPSゲームが爆速＆高画質に進化、ストレスフリーな快適体験へ

プロフェッショナルへ捧ぐ“怪物”―AMD Ryzen Threadripper 9000シリーズ搭載PC、国内BTOメーカーから一挙集結

HEDTの王者Ryzen Threadripper 9980X／9970X、ついにゲーミング性能も大幅進化

Sponsored Articles

新領域への挑戦は、最強のタッグから。UNIZONE×G TUNEがeモータースポーツの未来を創る

Radeon買ったら真っ先に見るべきAMD Softwareの設定項目

「AMD Ryzen 9 9950X3D」＋「AMD Radeon RX 9070 XT」が超快適！黒色系ケースの「G-GEAR プレミアムミドルタワー」に注目だ

AMDはクリエイティブ用途も強い！注目の「AMD Ryzen 9 9950X3D」「AMD Radeon RX 9070 XT」の実力を探った！

メモリー帯域を増やして性能を向上させたRDNA 3の内部構造 AMD GPUロードマップ

この連載の記事

この記事の編集者は以下の記事をオススメしています

デジタル 大幅にダイサイズを縮小できたRDNA 3のチップレット構造 AMD GPUロードマップ

PC ロードマップでわかる！当世プロセッサー事情（目次）

デジタル AMD Radeon RX 7900 XTX/XTがRTX 4080を上回れるのか？【前編】

デジタル AMD Radeon RX 7900 XTX/XTがRTX 4080を上回れるのか？【後編】

AMD記事アクセスランキング

お勧めのAMD記事

Sponsored Articles

メモリー帯域を増やして性能を向上させたRDNA 3の内部構造　AMD GPUロードマップ

デジタル
大幅にダイサイズを縮小できたRDNA 3のチップレット構造　AMD GPUロードマップ

PC
ロードマップでわかる！当世プロセッサー事情（目次）

デジタル
AMD Radeon RX 7900 XTX/XTがRTX 4080を上回れるのか？【前編】

デジタル
AMD Radeon RX 7900 XTX/XTがRTX 4080を上回れるのか？【後編】