ロードマップでわかる!当世プロセッサー事情 第584回
性能/消費電力比がCore i9の2.8倍というRyzen 5000シリーズの詳細 AMD CPUロードマップ
2020年10月12日 12時00分更新
今回は米国時間の10月8日に発表会が開催されたZen 3ことRyzen 5000シリーズの話である。すでにハッチパイセンの速報が上がっているのでお読みの方も多いだろう。
発表会のビデオそのものはこちらから見直すことができるが、これに先立ってもう少し細かな情報も得られたので、これをベースにRyzen 5000シリーズを解説していこう。
Zen 3マイクロアーキテクチャー
まずはZen 3の中身についてだが、最初にお断りしておくと、AMDは現時点でZen 3で利用されるプロセスの詳細を明らかにしておらず、“7nmプロセス”とだけ説明している。連載553回で説明したように、AMDのいう7nmプロセスにはN7/N7P/N7+/N6がある。
筆者はZen 3世代はN7+プロセスに移行したと見ているが(理由は後述)、確証はない。ちなみTSMCは、N7→N7+ではトランジスタ密度が1.2倍になり、同一周波数なら消費電力15%減、同一消費電力なら動作周波数が10%向上するとしており、これらのパラメーターも今回のZen 3の製品スペックにマッチしたものになっている。
さて内部であるが、Zen 3コアは、IPCの大幅な改善が行なわれたとする。具体的には19%のIPC改善があった、というのがAMDの説明である。
これだけだと今ひとつわからないのだが、発表会におけるPapermaster氏の説明で、もう少し細かいことがわかった。
デコード/イシューを拡張し
バックエンドを強化
「Wider Issue in Float and Int Engine」とあるので、バックエンドを強化したことがわかる。Zen 2世代の内部構造は連載516回で説明したが、バックエンドはALU 7way/FPU 4wayというけっこう強力なものだった。
これをさらに強化するということなので、おそらくはALU(整数演算器)が8wayないし9way、FPU(浮動小数点演算器)は4wayの対称型、もしくは6wayの非対称型になったものと思われる。
まずALU側だが、もともとZen 2でもALU×4+AGU(アドレス生成ユニット)×3という強烈な構成になっていた。これをさらに引き上げたというのだから、ALU×5+AGU×3ないし×4になった、と見なすのが妥当だろう。
一方のFPU。少し古い話であるが、もともとZenには4つの128bit FPUがあり、AVX命令を扱う場合はこれを2つづつペアにして256bit命令を実行する形になっているが、問題はこのFPUが完全に対称になっておらず、256bit命令を1サイクルあたり1命令しか扱えないという制約があった(詳細は連載333回を参照)。
この制約はZen 2で、FPUの幅を256bitに拡張してだいぶ緩和された。ただし非対称構成はそのままである。
今回、FPUに関しても“Wider Issue”というからには、FPUの数を6つ(ただし依然として非対称のまま)にしたか、それともFPUの数は4つのままながら完全対称型にすることで、実質的なイシュー数を増やしたかのどちらかだと考えられる。エリアサイズを考えると後者な気がするが確証はない。
実のところ、今後もインテルと競争していく以上、IPCを引き上げるためにはさらにデコード/イシューを広げる必要があるのは間違いない。インテルのSunny CoveはALU×4構成であるが、続くWillow Coveはともかくその次のGolden CoveはさらにIPCを引き上げると言っている以上、ALU×5は見えており、これを先取りする形でAMDがZen 3をALU×5にするのは不思議でもなんでもない。これが冒頭で示したIPCの内訳画像にある“Execution Engine”の分だと思われる。
おそらくはデコード段も、従来の4命令/サイクルから5命令/サイクルに拡張している。これはすでにインテルがSunny Coveで実現している話であり、まったく不思議ではない。というか、実行ユニットがさらに拡張されるとなると、当然デコードもこれに合わせて同時デコード数を広げないと実行ユニットが遊んでしまうことになる。ここの拡張は当然であろう。これが“フロントエンド”の分と思われる。
Micro-opキャッシュの帯域を強化
Micro-opキャッシュも、当然幅を広げることになる。再びZen 2世代の内部構造に戻るが、Zen 2までは4 x86命令/サイクル(≒4~8 Micro-ops/サイクル。おそらく平均的には5~6 Micro-ops/サイクル)でデコードから命令が供給されるが、Micro-opキャッシュに入っている場合はこちらから優先的にMicro-opが供給される。
これが6 Micro-ops/サイクルという帯域だった。ただ今回イシュー数が増えており、これに合わせておそらくMicro-Opキャッシュの帯域も7ないし8 Micro-op/サイクルに強化されたと思われる。
また、帯域が増えたら当然その分容量も増やさないといけないが、これらは必然的に性能の改善につながることになる。冒頭で示したIPCの内訳画像でMicro-opキャッシュにあたるのがこれだろう。
この連載の記事
-
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ