Intel Architecture Day 2021で発表された11のテーマ　インテル CPUロードマップ

2021年08月23日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

X^e HPC&Ponte Vecchio

　まずPonte Vecchioの設計目標が下の画像だ。FP64性能、AI性能、メモリー帯域のいずれも、これまでインテルが提供してきた性能(青線)は、業界標準(緑線)に追いついてこなかったが、ここで一気に追いつきたいわけだ。

Ponte Vecchioの設計目標。インテルが業界標準に追いつかなかったのはKnights Landingをキャンセルしたからでは？　という突っ込みを入れたくなる

　さて、これを実現するためのコアであるが、Vector Engine/Matrix Engine共に、Coreあたりの数は8つに減っている。ただし、Vector Engineは512bit、Matrix Engineは4096bitと2倍/4倍に増えている。X^e HPGに比べて、より演算性能を引き上げた格好だ。

エンジンの数を8つに減らしたのは粒度を上げるためだろうか？

Matrix EngineはX^e HPG同様、主にAI処理向けと考えられる

　この結果、Coreあたりのベクトル演算性能はFP32/64で256 Ops/サイクル、Matrix演算性能はInt 8だと最大8192 Ops/サイクル、FP16/BF16でも4096 Ops/サイクルである。このX^e Coreを16個まとめたものをスライスと呼び、さらにスライスを4つ(つまりX^e Coreを64個)集積したものがスタックである。

ちなみに、なぜかレイトレーシングユニットまでX^e Coreごとに搭載されている理由が良くわからない。汎用サーバー向けのX^e HPはまだわかるのだが、HPC向けにレイトレーシングは本当に必要なのだろうか？

　Ponte Vecchioは、このスタックを2つ搭載した格好になる。それぞれのスタックには最大8本までリンクが出るX^e Linkという、要するにルーターが搭載されており、これで最大8つまでのスタックが密結合で動作する格好になる。

Ponte Vecchioは、スタックを2つ搭載する。物理的にこの2つのスタックは別々のダイ(スライスごとに別ダイ)であり、間はX^e Linkで接続される格好になる

それぞれのスタックにX^e Linkを搭載する。この構造そのものは珍しくないし、8本のリンクも他に例がないわけではない。現時点ではリンクの速度や帯域、レイテンシーなどは不明だ

8つのスライスの相互接続ならリンクはスライスあたり7本で十分であり、残る1本の用途が不明である。将来の拡張用だろうか？

　さて、Ponte Vecchioの物理実装が下の画像だ。連載627回の最後の写真でも触れたが、合計47タイルからなる。

Ponte Vecchioの物理実装。Compute TileとRambo Cache、Base TileはFoverosで接続され、HBM2やX^e LinkはBase TileとEMIBでつながる格好になる

　内訳は以下の通り。

Compute Tile×16
Rambo Cache×8
X^e Base Tile×2
EMIB×11
X^e Link×2
HBM2e×8

　1スタックあたりに換算すると以下の通り。

Compute Tile×8
Rambo Cache×4
X^e Base Tile×1
EMIB×5(おそらくHBM2e用×4+X^e Link用×1)
X^e Link×1
HBM2e×4

　これとは別にスタック同士の接続にEMIB×1が使われる。このPonte Vecchioは1つ(＝2スタック)でFP32が45TFlopsとされる。2 Stack＝8 Slice＝128 X^e Coreだから、処理性能は32768 FP32 Ops/サイクルになる。トータル45TFlops以上、ということは動作周波数はおおよそ1.4GHz程度と推定されることになる。競合製品との違いは、FP32/FP64が同じ性能なことだ。