ロードマップでわかる!当世プロセッサー事情 第629回
Intel Architecture Day 2021で発表された11のテーマ インテル CPUロードマップ
2021年08月23日 12時00分更新
Xe HPC&Ponte Vecchio
まずPonte Vecchioの設計目標が下の画像だ。FP64性能、AI性能、メモリー帯域のいずれも、これまでインテルが提供してきた性能(青線)は、業界標準(緑線)に追いついてこなかったが、ここで一気に追いつきたいわけだ。
さて、これを実現するためのコアであるが、Vector Engine/Matrix Engine共に、Coreあたりの数は8つに減っている。ただし、Vector Engineは512bit、Matrix Engineは4096bitと2倍/4倍に増えている。Xe HPGに比べて、より演算性能を引き上げた格好だ。
この結果、Coreあたりのベクトル演算性能はFP32/64で256 Ops/サイクル、Matrix演算性能はInt 8だと最大8192 Ops/サイクル、FP16/BF16でも4096 Ops/サイクルである。このXe Coreを16個まとめたものをスライスと呼び、さらにスライスを4つ(つまりXe Coreを64個)集積したものがスタックである。
Ponte Vecchioは、このスタックを2つ搭載した格好になる。それぞれのスタックには最大8本までリンクが出るXe Linkという、要するにルーターが搭載されており、これで最大8つまでのスタックが密結合で動作する格好になる。
さて、Ponte Vecchioの物理実装が下の画像だ。連載627回の最後の写真でも触れたが、合計47タイルからなる。
内訳は以下の通り。
- Compute Tile×16
- Rambo Cache×8
- Xe Base Tile×2
- EMIB×11
- Xe Link×2
- HBM2e×8
1スタックあたりに換算すると以下の通り。
- Compute Tile×8
- Rambo Cache×4
- Xe Base Tile×1
- EMIB×5(おそらくHBM2e用×4+Xe Link用×1)
- Xe Link×1
- HBM2e×4
これとは別にスタック同士の接続にEMIB×1が使われる。このPonte Vecchioは1つ(=2スタック)でFP32が45TFlopsとされる。2 Stack=8 Slice=128 Xe Coreだから、処理性能は32768 FP32 Ops/サイクルになる。トータル45TFlops以上、ということは動作周波数はおおよそ1.4GHz程度と推定されることになる。競合製品との違いは、FP32/FP64が同じ性能なことだ。
ちなみにこれは2スタックでの構成だが、実際のCompute Bladeはこれを4つ組み合わせ、3つ前の画像の構成を取った物が基本ということになる。実際にAuroraに納入予定のモジュールも示された。
ということで、これでも随分省いて説明したにも関わらずこの文量である。もう少し深い話を次回以降、順次お届けしたい。
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ