AVX-512 Unitを搭載しないことが判明
性能重視のP-Core
さて前回は軽く流したが、P-Coreの拡充ぶりはすごい。P-Coreの全体構造は前回示したが、それ以前のWillow Cove(Tiger Lakeに使われているコア:Rocket LakeのCypress Coveの次世代にあたる)と比較したのが下の画像である。フロントエンド、つまりスケジューラーまではまだしも、Issue Portの数が大幅に増えているのがわかる。
Cypress Coveのブロック図は昨年のArchitecture Dayの資料から引っ張ってきた。バックエンドのユニット数が大幅に増えた関係で、Golden Cove側が妙に狭いことに。Golden CoveにROBが含まれていないのは、単に省いただけだろう(同様にReservation Stationも省かれている。多分入りきらなかったのだろう)。
まずフロントエンドだが、Sunny Cove&Willow Cove/Golden Coveでは以下のようにデコード性能が大幅に強化されている。
| デコード性能 | ||||||
|---|---|---|---|---|---|---|
| 開発コード名 | デコード | μOpキャッシュ | マイクロコード | |||
| Sunny&Willow Cove | 5命令/サイクル | 6μOp/サイクル | 4命令/サイクル | |||
| Golden Cove | 6命令/サイクル | 8μOp/サイクル | 4命令/サイクル | |||
さらにμOpキャッシュ容量やキューなど、すべてが強化されている。μOpキャッシュからはついに8μOp/サイクルでの供給になっており、キャッシュ容量の増加と相まって実効デコード性能を大幅に引き上げているように見える。
一方、バックエンドの方であるが、まずIssue Portが10→12に強化された。またアロケーションも同時6命令に強化されている。
そして増強であるが、まず5番目のALUが追加されたことで、通常のアプリケーションであってもついにx86命令換算で5命令/サイクルの実行が可能になった。
LEA(Load Effective Address)はアドレス計算に使う命令だが、フラグに影響を与えないこともあって、アドレス計算などではADDなどよりも広く使われている。また加算にADDの代わりに使われることもあり、1サイクルで処理できるとあってこれも広く使われている。
またFPU系で言えば、新たにFast Adder(FADD)が2つ追加されている。そしてALUが5つということは、メモリーアクセスをともなうALU命令が5命令/サイクルで実行される可能性があるわけで、これに対応してAGU(Address Generation Unit)も5つに強化された。
2次キャッシュはWillow Coveの1.25MBを継承したが、これもサーバー(つまりSapphire Rapids)向けでは2MBに増強されることになっている。
ところで、クライアント向け(つまりAlder Lake)のP-CoreではAVX-512とAMXが利用できない。これはP-CoreとE-Coreで利用できる命令セットが完全に一致していないとスレッドの切り替えができないためだ。
このうちAMXはアクセラレーターなので搭載されていないのは間違いないとしてAVX-512は? という話だが、これは「無効化されている」のか「搭載されていない」のかに関しては、どうも搭載されていない公算が高そうだ。
HotChipsの質疑応答で、AVX-512 Unitは搭載されていないのか、それとも無効化されているのか? という質問に対し、説明したインテルのEfraim Rotem氏は「両方だ。Golden Coveのいくつかの機能はクライアント向けでは無効化され、いくつかは物理的に削除されている」と回答し、間接的にであるがAVX-512は搭載されていないことを示唆している。
そもそもSapphire RapidsとAlder Lakeは2次キャッシュのサイズが違うから、コアそのものが異なっている。またAVX-512ユニットは物理的にそれなりのサイズを占有するので、コストが厳しいクライアント向けに搭載する理由はない(し、外すのも簡単である)。無効化されている機能は、RAS関係などパイプライン内部にがっちり組み込まれており、外すのが困難な機能だろうと想像される。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ
















