このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第632回

Intel 7とTSMC N5で構成されるHPC向けGPUのPonte Vecchio インテル GPUロードマップ

2021年09月13日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 過去3回に引き続きインテル新製品の詳細をお伝えする。今回はPonte Vecchioについてだ。

 実はPonte Vecchioもやはり新しい話はHotChips 33のカンファレンスセッションでは出てこなかった。ということで、実はあまり新情報はなかったりする。大まかな話は連載629回で説明した通りだが、一応復習も兼ねて簡単に説明しよう。

EUあたりの性能が倍増した代わりにEUの数が半減

 Xe-HPC、つまりPonte Vecchioの演算の最小単位はXe-coreとなるが、同じ名前ながらXe-HPG(GPU)向けとは若干構造が違う、というのは以前触れた通り。1つのXe-coreに8つのVector Engineと8つのMatrix Engineから構成される。

Ponte VecchioのXe-core。XMXの方は1サイクルあたり4096bitの演算が可能だが、Load/Storeが間に合っていないあたり、行列演算などを本格的にやる実装にはなっていない気がする

 Vector EngineというのはこれまでEU(Execution Unit)として説明されていたもので、中身は8-wideのFPU/INTの巨大なSIMD Engineである。ただ同じXeでもXe-LPのEUは、1サイクルあたり256bit演算になっていたのが、Xe-HPCでは上の画像にもあるように演算器の幅が512bitに倍増している。

 つまりXe-LPやXe-HPG向けでは256bit幅のEU×2(ただしスレッドコントロールは共通)という構成だったのを、Xe-HPC向けでは512bit幅のEU×1として扱う格好に変更したようだ。したがって、同じEU(上の画像の表現ではVector Engine)あたりの性能が倍増して、ただしEUの数が半減するという形になっている。

 この理由であるが、おそらくはAVX512やAMXなどとの連携を考えると、512bit幅のデータ型を扱えるようにするのが得策と考えたからだろう。Xe-CoreにはこのVector Engineが8つあるから、これにあわせてLoad/Storeユニットも512Bytes/サイクルに強化されている。

 一方のMatrix Engineであるが、これは連載579回で説明したDP4A命令を処理するのが主眼と思われる。ひょっとしてAMX命令を処理できるのか? と思ったが、どうもそうした構造にはなっていないようだ。ちなみにDP4A命令そのものはVNNI命令と互換性があるそうで、ただしx64コアよりも大幅に高速化されている格好だ。

 インテルの説明によれば、OpenVINO 2021.1 release以降ではこのDP4A命令をサポートしているということで、つまりx64でもVNNIを利用してDot Products演算を高速に処理できるが、XMXを利用するとプログラムをそのままでさらに高速化できることになる。位置付け的にはNVIDIAのVolta以降で実装されたTensor Coreと同じ形である。

Xe-Coreを8つ集積したSliceが
最小の演算単位になる

 さて、Xe-HPCを構成する最小の演算単位は、このXe-Coreを8つ集積したSliceとなる。

そもそもSliceが8 Xe-core構成なのはなぜ? という疑問が湧くのだが、そのあたりは後述する

 Xe-HPGと比べると、Xe-HPGはXe-Core×4で1つのRender Sliceを構築するのに対し、Xe-HPCはXe-Core×8で1 Sliceとなる。

 そして、Xe-HPGは、2 Vector Core単位でThread Dispatcherが実装されており、Xe-Coreあたり同時8スレッド、1 Render Sliceあたりで言えば32スレッドが同時に動く(In-Flight状態のスレッドは当然さらに多いと思われるが、インテルはまだ1つのXe-Coreでハンドリングできるスレッドの数を公開していない)のに対し、Xe-HPCではSliceあたりで1つのHardware Contextとしており、同時に実行できるスレッドの数は1つとなる。相当粒度の低い構成になるわけだが、逆にピーク性能を高めようとするとこうした構成の方が効果的なのかもしれない。

 さらに言えば、上の画像には記載されていないが、Xe-HPCではここに外付けの形で2次キャッシュが実装可能である。Xe-HPGも2次キャッシュはサポートするが、こちらはモノリシック構造で提供されるようで、このあたりも違いと言えるだろう。

 ところで2020年のArchitecture Dayでは、Ponte VecchioはBase Tileが10nm SuperFin、Computeが次世代プロセス、Rambo Cacheが10nm Enhanced SuperFin、Xe-LinkがExternalとなっていたが、今回Compute TileはTSMC N5、Base TileはIntel 7とされている。

 つまり2020年の時点では旧10nm SuperFinでBase Tileを製造予定だったのが、10nm Enhanced SuperFinに切り替わった格好だ。Xe-LinkはTSMC N7で最大90Gの速度とあるが、これはおそらくレーン全体での話で、1レーンで90Gという話ではないと思われる。

Compute TileはTSMC N5とある。これはもともと“Intel Next Gen & External”となっていたので不思議ではない。今のスケジュールでIntel 4を使うと、量産開始が2023年になってしまうからだ

Base TileはIntel 7。2次キャッシュが144MBとあるので、36MBのRambo Cache Tileを4つという計算だ。この36MBというのはECC付きの容量なのかもしれない

Xe-LinkはEMIBで接続されるので、EMIBの方がおそらくボトルネックになる

 ちなみに性能という観点では、Ponte Vecchioが1つでFP32/FP64が45TFlopsという数字はすでに示した。インテルは、「これはA0シリコンでの数字だ」としており、今後もう少し動作周波数が上がることを示唆していたが、HotChipsの説明ではこのほか、ResNet-50を動作させてInference(推論)が43000イメージ/秒以上、Training(学習)で3400イメージ/秒以上という数字も公開された。

これは主にMatrix Engineの効果ということだろう

 この数字、比較するものが古いが、Inferenceで言えばインテルが買収したHabana LabsのGoyaが1万5000そこそこなので、これを軽く2倍以上上回る性能ということになる。Trainingも、Gaudiの性能がおおむね1600イメージ/秒とされていたので、これもやはり2倍以上である。

 こうなると、Habana Labsを約20億ドルで買収して入手したGaudiとGoyaの存在価値が問われかねない気もするのだが、どうするつもりなのだろうか?

前へ 1 2 3 次へ

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
1
【Amazon.co.jp限定】Lenovo Chromebook クロームブック Duet 11 10.95インチ MediaTek Kompanio 838 プロセッサー​搭載 メモリ8GB eMMC 128GB 重量1.0kg 83HH000TJP パソコン
【Amazon.co.jp限定】Lenovo Chromebook クロームブック Duet 11 10.95インチ MediaTek Kompanio 838 プロセッサー​搭載 メモリ8GB eMMC 128GB 重量1.0kg 83HH000TJP パソコン
¥61,800
2
HP ノートパソコン 15-fd 15.6インチ インテル Core Ultra 5 125H メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M7PA-AAAF)
HP ノートパソコン 15-fd 15.6インチ インテル Core Ultra 5 125H メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M7PA-AAAF)
¥130,200
3
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、Touch ID - シルバー
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、Touch ID - シルバー
¥177,333
4
Lenovo ノートパソコン パソコン IdeaPad Slim 3 14.0インチ AMD Ryzen™ 5 8640HS メモリ16GB SSD512GB MS Office搭載 Windows11 バッテリー駆動12.6時間 重量1.39kg ルナグレー 83K90027JP ノートPC
Lenovo ノートパソコン パソコン IdeaPad Slim 3 14.0インチ AMD Ryzen™ 5 8640HS メモリ16GB SSD512GB MS Office搭載 Windows11 バッテリー駆動12.6時間 重量1.39kg ルナグレー 83K90027JP ノートPC
¥108,800
5
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥35,130

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,390
2
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,222
3
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,025
4
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,590
5
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
6
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥660
7
KIOXIA(キオクシア)【日本製】SDカード 64GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA064G
KIOXIA(キオクシア)【日本製】SDカード 64GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA064G
¥1,616
8
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,359
9
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥5,680
10
【Amazon.co.jp限定】 ロジクール ワイヤレスマウス 無線 マウス M185CG 小型 電池寿命最大12ケ月 M185 グレー 国内正規品
【Amazon.co.jp限定】 ロジクール ワイヤレスマウス 無線 マウス M185CG 小型 電池寿命最大12ケ月 M185 グレー 国内正規品
¥999

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン