Sunny Coveからキャッシュ周りが変わった
Willow Cove
次はWillow Coveコアの話だ。もともと2018年のArchitecture Dayの際のスライドでは、Willow Coveはキャッシュ構成の再設計、新しいトランジスタへの最適化、セキュリティーの強化の3点が挙げられていた。このうち新しいトランジスタへの最適化は、上に示した10nm SuperFinへの対応ということでわかる。
コアの構成が上の画像であるが、Ice LakeというかSunny CoveのBackendと比較すると以下の違いがあり、多少Window Sizeなどを増強したかもしれないが、大きな変更はなさそうである。
- RSの数は4つ。ALU/FPU/AVX向けのPort 0/1/5/6、Store Data向けのPort 4/9、Load/Store Address向けのPort 2/8とPort 3/7の4つになっている。
- それぞれのポートの下にぶら下がる実行ユニットの数も同じ。
- Schedulerのウインドウサイズなどは今回明らかにされていないので比較できないが、構造そのものは大きく変わっていない
では変化があるのは? というとキャッシュ周り。そもそもIce Lakeの場合、キャッシュ構成は以下のようになっており、1次キャッシュこそ共通ながら2次と3次キャッシュが大容量化されるとともに、キャッシュ構成がNon-Inclusiveに切り替わった。
Ice LakeとTiger Lakeの違い | ||||||
---|---|---|---|---|---|---|
Ice Lake | Tiger Lake | |||||
1次キャッシュ | 命令32KB+データ48KB | 命令32KB+データ48KB | ||||
2次キャッシュ | 512KB、Inclusive | 1.25MB、Non-Inclusive | ||||
3次キャッシュ | 2MB/core、Inclusive | 3MB/core、Non-Inclusive |
Inclusive方式はレイテンシーこそ低いものの、キャッシュの利用効率が下がるという問題がある。一方Non-Inclusive方式では、キャッシュの利用効率そのものは高いものの、キャッシュミス時のデータのFillに時間が掛かるのと、複数コア間でのSnoopingの頻度も高まる関係で、レイテンシーが大きくなる。
かつて、インテルはAMDに対してプロセス面でアドバンテージがあり、それもあって大容量のキャッシュをInclusiveで搭載、対するAMDはプロセス面でのディスアドバンテージを補うべく、相対的に少ないキャッシュをExclusive構成で搭載することで見劣りしないように工夫する(ただしレイテンシーが余分にかかるので少し遅い)という戦略を取っていたが、このところAMDとインテルの立場がプロセスに関して逆転している。そこで、多少なりとも容量面での不利を補うためにこうした方策を取ったのかもしれない。
上の画像の最後に出てくるControl Flow Enforcementとは、Jump/Returnなどの制御命令を実行する際に、分岐先インジェクションなどの攻撃を受けやすいというものである。
この分岐先に対する攻撃は何種類かある(一番有名なのはSpectre V2)だが、そのSpectre V2そのものへの対応はIce Lake世代で一応完了している。ここで挙げられたのは、そうした応急対処ではなく、もう少し恒久的というか根本的に分岐命令の安全性を高めるための方策ではないかと思われる。
単にコアだけではなくSoCレベルでの改良箇所も多い。まずファブリックは、今回Dual Ring構成になったとしており、さらに新たにLP5-5400のサポートも追加されたとされている。
加えて、Non-Inclusive LLCを採用したことでRing Busのトラフィックそのものが半分になったとしており、結果として従来比で4倍の帯域を利用可能になる計算だ。I/Oキャッシングに関しては、現状詳細不明なままであるが、後述するUSB Type-C周りであるいはなにかローカルキャッシュが利用されているのかもしれない。
ちなみに、上の画像にある86GB/sはLP5-5400を使った場合の数字である。またRyzen Pro/EPYC同様に、メモリー上のデータを自動的に暗号化すると思われる、Total Memory Encryptionが新たに追加された。
またアクセラレーターであるGNA(Gaussian and Neural Accelerator)も2.0になった。GNAの話は連載525回で説明したが、CPUコアから処理をオフロード可能なアクセラレーターという扱いである。
この連載の記事
-
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ