このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第632回

Intel 7とTSMC N5で構成されるHPC向けGPUのPonte Vecchio インテル GPUロードマップ

2021年09月13日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 過去3回に引き続きインテル新製品の詳細をお伝えする。今回はPonte Vecchioについてだ。

 実はPonte Vecchioもやはり新しい話はHotChips 33のカンファレンスセッションでは出てこなかった。ということで、実はあまり新情報はなかったりする。大まかな話は連載629回で説明した通りだが、一応復習も兼ねて簡単に説明しよう。

EUあたりの性能が倍増した代わりにEUの数が半減

 Xe-HPC、つまりPonte Vecchioの演算の最小単位はXe-coreとなるが、同じ名前ながらXe-HPG(GPU)向けとは若干構造が違う、というのは以前触れた通り。1つのXe-coreに8つのVector Engineと8つのMatrix Engineから構成される。

Ponte VecchioのXe-core。XMXの方は1サイクルあたり4096bitの演算が可能だが、Load/Storeが間に合っていないあたり、行列演算などを本格的にやる実装にはなっていない気がする

 Vector EngineというのはこれまでEU(Execution Unit)として説明されていたもので、中身は8-wideのFPU/INTの巨大なSIMD Engineである。ただ同じXeでもXe-LPのEUは、1サイクルあたり256bit演算になっていたのが、Xe-HPCでは上の画像にもあるように演算器の幅が512bitに倍増している。

 つまりXe-LPやXe-HPG向けでは256bit幅のEU×2(ただしスレッドコントロールは共通)という構成だったのを、Xe-HPC向けでは512bit幅のEU×1として扱う格好に変更したようだ。したがって、同じEU(上の画像の表現ではVector Engine)あたりの性能が倍増して、ただしEUの数が半減するという形になっている。

 この理由であるが、おそらくはAVX512やAMXなどとの連携を考えると、512bit幅のデータ型を扱えるようにするのが得策と考えたからだろう。Xe-CoreにはこのVector Engineが8つあるから、これにあわせてLoad/Storeユニットも512Bytes/サイクルに強化されている。

 一方のMatrix Engineであるが、これは連載579回で説明したDP4A命令を処理するのが主眼と思われる。ひょっとしてAMX命令を処理できるのか? と思ったが、どうもそうした構造にはなっていないようだ。ちなみにDP4A命令そのものはVNNI命令と互換性があるそうで、ただしx64コアよりも大幅に高速化されている格好だ。

 インテルの説明によれば、OpenVINO 2021.1 release以降ではこのDP4A命令をサポートしているということで、つまりx64でもVNNIを利用してDot Products演算を高速に処理できるが、XMXを利用するとプログラムをそのままでさらに高速化できることになる。位置付け的にはNVIDIAのVolta以降で実装されたTensor Coreと同じ形である。

Xe-Coreを8つ集積したSliceが
最小の演算単位になる

 さて、Xe-HPCを構成する最小の演算単位は、このXe-Coreを8つ集積したSliceとなる。

そもそもSliceが8 Xe-core構成なのはなぜ? という疑問が湧くのだが、そのあたりは後述する

 Xe-HPGと比べると、Xe-HPGはXe-Core×4で1つのRender Sliceを構築するのに対し、Xe-HPCはXe-Core×8で1 Sliceとなる。

 そして、Xe-HPGは、2 Vector Core単位でThread Dispatcherが実装されており、Xe-Coreあたり同時8スレッド、1 Render Sliceあたりで言えば32スレッドが同時に動く(In-Flight状態のスレッドは当然さらに多いと思われるが、インテルはまだ1つのXe-Coreでハンドリングできるスレッドの数を公開していない)のに対し、Xe-HPCではSliceあたりで1つのHardware Contextとしており、同時に実行できるスレッドの数は1つとなる。相当粒度の低い構成になるわけだが、逆にピーク性能を高めようとするとこうした構成の方が効果的なのかもしれない。

 さらに言えば、上の画像には記載されていないが、Xe-HPCではここに外付けの形で2次キャッシュが実装可能である。Xe-HPGも2次キャッシュはサポートするが、こちらはモノリシック構造で提供されるようで、このあたりも違いと言えるだろう。

 ところで2020年のArchitecture Dayでは、Ponte VecchioはBase Tileが10nm SuperFin、Computeが次世代プロセス、Rambo Cacheが10nm Enhanced SuperFin、Xe-LinkがExternalとなっていたが、今回Compute TileはTSMC N5、Base TileはIntel 7とされている。

 つまり2020年の時点では旧10nm SuperFinでBase Tileを製造予定だったのが、10nm Enhanced SuperFinに切り替わった格好だ。Xe-LinkはTSMC N7で最大90Gの速度とあるが、これはおそらくレーン全体での話で、1レーンで90Gという話ではないと思われる。

Compute TileはTSMC N5とある。これはもともと“Intel Next Gen & External”となっていたので不思議ではない。今のスケジュールでIntel 4を使うと、量産開始が2023年になってしまうからだ

Base TileはIntel 7。2次キャッシュが144MBとあるので、36MBのRambo Cache Tileを4つという計算だ。この36MBというのはECC付きの容量なのかもしれない

Xe-LinkはEMIBで接続されるので、EMIBの方がおそらくボトルネックになる

 ちなみに性能という観点では、Ponte Vecchioが1つでFP32/FP64が45TFlopsという数字はすでに示した。インテルは、「これはA0シリコンでの数字だ」としており、今後もう少し動作周波数が上がることを示唆していたが、HotChipsの説明ではこのほか、ResNet-50を動作させてInference(推論)が43000イメージ/秒以上、Training(学習)で3400イメージ/秒以上という数字も公開された。

これは主にMatrix Engineの効果ということだろう

 この数字、比較するものが古いが、Inferenceで言えばインテルが買収したHabana LabsのGoyaが1万5000そこそこなので、これを軽く2倍以上上回る性能ということになる。Trainingも、Gaudiの性能がおおむね1600イメージ/秒とされていたので、これもやはり2倍以上である。

 こうなると、Habana Labsを約20億ドルで買収して入手したGaudiとGoyaの存在価値が問われかねない気もするのだが、どうするつもりなのだろうか?

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事
1
【整備済み品】中古 ノートパソコン NEC VersaPro VKT16/15.6型・第8世代Core i5-8250U(最大動作3.4GHz)/快適メモリ8GB/ 高速SSD 256GB/Win11 Pro/MS Office 2019付属/テンキー付, Webカメラ, USB3.0, HDMI, VGA, 有線LAN, WIFI内蔵, Bluetooth/ACアダプター付属/180日間保証
【整備済み品】中古 ノートパソコン NEC VersaPro VKT16/15.6型・第8世代Core i5-8250U(最大動作3.4GHz)/快適メモリ8GB/ 高速SSD 256GB/Win11 Pro/MS Office 2019付属/テンキー付, Webカメラ, USB3.0, HDMI, VGA, 有線LAN, WIFI内蔵, Bluetooth/ACアダプター付属/180日間保証
¥26,880
2
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥36,979
3
HP ノートパソコン 15-fd 15.6インチ インテル Core Ultra 5 125H メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M7PA-AAAF)
HP ノートパソコン 15-fd 15.6インチ インテル Core Ultra 5 125H メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M7PA-AAAF)
¥134,377
4
Lenovo Chromebook クロームブック IdeaPad Flex 3i Gen8 12.2インチ インテル® プロセッサー N100搭載 メモリ4GB eMMC 64GB バッテリー駆動12.0時間 重量1.25kg アビスブルー 82XH001KJP
Lenovo Chromebook クロームブック IdeaPad Flex 3i Gen8 12.2インチ インテル® プロセッサー N100搭載 メモリ4GB eMMC 64GB バッテリー駆動12.0時間 重量1.25kg アビスブルー 82XH001KJP
¥39,800
5
Apple 2025 MacBook Pro 10 コアCPU、10 コアGPU のM5 チップ搭載ノートパソコン:Apple Intelligence のために設計、14.2 インチLiquid Retina XDR ディスプレイ、24GB ユニファイドメモリ、1TBのSSD ストレージ - スペースブラック
Apple 2025 MacBook Pro 10 コアCPU、10 コアGPU のM5 チップ搭載ノートパソコン:Apple Intelligence のために設計、14.2 インチLiquid Retina XDR ディスプレイ、24GB ユニファイドメモリ、1TBのSSD ストレージ - スペースブラック
¥296,323

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥1,880
2
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
3
【Amazon.co.jp限定】バッファロー microSD 32GB 100MB/s UHS-1 U1 microSDHC【 Nintendo Switch 対応 】V10 A1 IPX7 Full HD RMSD-032U11HA/N
【Amazon.co.jp限定】バッファロー microSD 32GB 100MB/s UHS-1 U1 microSDHC【 Nintendo Switch 対応 】V10 A1 IPX7 Full HD RMSD-032U11HA/N
¥980
4
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
5
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
6
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥5,280
7
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥699
8
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,545
9
バッファロー SDカード 128GB 100MB/s UHS-1 スピードクラス1 VideoSpeedClass10 IPX7 Full HD データ復旧サービス対応 RSDC-128U11HA/N
バッファロー SDカード 128GB 100MB/s UHS-1 スピードクラス1 VideoSpeedClass10 IPX7 Full HD データ復旧サービス対応 RSDC-128U11HA/N
¥1,980
10
バッファロー USBメモリ 32GB USB3.2(Gen1)/3.1(Gen 1)/3.0/2.0 充実サポート RUF3-K32GA-BK/N
バッファロー USBメモリ 32GB USB3.2(Gen1)/3.1(Gen 1)/3.0/2.0 充実サポート RUF3-K32GA-BK/N
¥880

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン