ロードマップでわかる!当世プロセッサー事情 第629回
Intel Architecture Day 2021で発表された11のテーマ インテル CPUロードマップ
2021年08月23日 12時00分更新
Xe HPC&Ponte Vecchio
まずPonte Vecchioの設計目標が下の画像だ。FP64性能、AI性能、メモリー帯域のいずれも、これまでインテルが提供してきた性能(青線)は、業界標準(緑線)に追いついてこなかったが、ここで一気に追いつきたいわけだ。
さて、これを実現するためのコアであるが、Vector Engine/Matrix Engine共に、Coreあたりの数は8つに減っている。ただし、Vector Engineは512bit、Matrix Engineは4096bitと2倍/4倍に増えている。Xe HPGに比べて、より演算性能を引き上げた格好だ。
この結果、Coreあたりのベクトル演算性能はFP32/64で256 Ops/サイクル、Matrix演算性能はInt 8だと最大8192 Ops/サイクル、FP16/BF16でも4096 Ops/サイクルである。このXe Coreを16個まとめたものをスライスと呼び、さらにスライスを4つ(つまりXe Coreを64個)集積したものがスタックである。
ちなみに、なぜかレイトレーシングユニットまでXe Coreごとに搭載されている理由が良くわからない。汎用サーバー向けのXe HPはまだわかるのだが、HPC向けにレイトレーシングは本当に必要なのだろうか?
Ponte Vecchioは、このスタックを2つ搭載した格好になる。それぞれのスタックには最大8本までリンクが出るXe Linkという、要するにルーターが搭載されており、これで最大8つまでのスタックが密結合で動作する格好になる。
さて、Ponte Vecchioの物理実装が下の画像だ。連載627回の最後の写真でも触れたが、合計47タイルからなる。
Ponte Vecchioの物理実装。Compute TileとRambo Cache、Base TileはFoverosで接続され、HBM2やXe LinkはBase TileとEMIBでつながる格好になる
内訳は以下の通り。
- Compute Tile×16
- Rambo Cache×8
- Xe Base Tile×2
- EMIB×11
- Xe Link×2
- HBM2e×8
1スタックあたりに換算すると以下の通り。
- Compute Tile×8
- Rambo Cache×4
- Xe Base Tile×1
- EMIB×5(おそらくHBM2e用×4+Xe Link用×1)
- Xe Link×1
- HBM2e×4
これとは別にスタック同士の接続にEMIB×1が使われる。このPonte Vecchioは1つ(=2スタック)でFP32が45TFlopsとされる。2 Stack=8 Slice=128 Xe Coreだから、処理性能は32768 FP32 Ops/サイクルになる。トータル45TFlops以上、ということは動作周波数はおおよそ1.4GHz程度と推定されることになる。競合製品との違いは、FP32/FP64が同じ性能なことだ。
1.4GHz駆動では実際の処理性能は45.87TFlopsほどになる。ちなみにNVIDIA A100がFP64 9.7TFlops/FP32 19.5TFlopsだから、FP32比で2.4倍弱、FP64だと4.7倍ほど高速という計算になる
ちなみにこれは2スタックでの構成だが、実際のCompute Bladeはこれを4つ組み合わせ、3つ前の画像の構成を取った物が基本ということになる。実際にAuroraに納入予定のモジュールも示された。
ということで、これでも随分省いて説明したにも関わらずこの文量である。もう少し深い話を次回以降、順次お届けしたい。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ



















