ロードマップでわかる!当世プロセッサー事情 第633回
Ponte VecchioとIntel Arcに関する疑問をRaja Koduri氏が回答 インテル GPUロードマップ
2021年09月20日 12時00分更新
前回に引き続きインテルのGPUシリーズを解説する。17日、先日のArchitecture Dayに関するラウンドテーブルがあり、インテルのRaja Koduri氏ほかに直接質問をする機会に恵まれた。もちろん質問はGPUに関するものだけであるが、Ponte Vecchioに加えてIntel Arcに関しても質問できたので、これらの情報をアップデートの形でお届けしよう。
おなじみKoduri氏。他にRoger Chandler氏(VP&GM, Client Graphics Products and Solutions)とJeff McVeigh氏(VP&GM, Data Center XPU Products & Solutions)も参加した
Ponte Vecchioは行列演算が可能
まずPonte Vecchioに関して。連載632回で、「Matrix EngineはDP4A命令に代表されるAI/ML命令のみの処理が可能なのかも」と書いたが、実際には汎用的な行列演算が可能という話であった。
これはoneAPIや業界標準の、例えばマイクロソフトの提供する開発ツール経由で利用可能とのことで、AMXと互換性はない。oneAPI経由で見れば、AMXもXMXも同じように扱えるが、AMX命令がそのまま利用できるわけではない、との話であった。
おそらくスループットそのものはAMXの方が大きいと思われるが、その代わり演算ユニットの数はXMXの方が多いわけで、XMXを利用して大規模な行列演算などは現実的に可能と思われる。
実はすでにインテルのMKL(Math Kernel Library:算術演算ライブラリー)はoneAPI対応のoneAPI MKLがリリースされており、Ponte Vecchioを利用する場合にはこのoneAPI MKLを利用すればBLAS(Basic Linear Algebra Subprograms:と行列基本線型代数演算ライブラリー)はXMXを利用して処理可能になるわけだ。
NVIDIAのTensor Coreももともと行列演算が可能になっていたが、初代/第2世代は混合精度で、いわゆるFP32/64は未サポートなので、AI/ML処理には使えても科学技術演算にはかなり厳しく、精度が十分に取れないという制約があった。
ところがAmpereに搭載された第3世代のTensor Coreでは倍精度演算(DMMA:Double-precision Matrix Multiply-Add)がサポートされたことで、科学技術演算にも十分利用できるようになった。Ponte Vecchioもこれに匹敵する利用が可能かどうか現時点でははっきりしないが、少なくとも方向性は同じであることがわかった。
HPCにもレイトレーシングは必要
次にレイトレーシング・ユニット。連載629回で「HPC向けにレイトレーシングは本当に必要なのだろうか?」と書いたが、これについてはJeff McVeigh氏がはっきり「必要だ。例えば大規模なシミュレーションの結果の可視化などで利用される。レイトレーシングの技術も進化しており、単に高速でというだけでなく、超高精画質を得る方向性もある。単に可視化のみならずコンテンツ制作やAI/MLなどでも利用される可能性がある」とした。
また連載632回で書いた“PVC 2T”についても「われわれは異なるパワーエンベローブに対応するために、1タイルのPonte Vecchioを提供する予定がある」との返事をもらった。
表に“PVC 2T”と書かれている。“2T”ということは、“1T”や“4T”があっても不思議ではないが、それが明言されたことになる。実際、Ponte VecchioのPVC 1Tを作るのはかなり容易だ
まだPonte Vecchioは細かなスペックが出ていないが、一説にはPonte Vecchio OAMは1個で消費電力が400Wを超えるという。これは実際載っているモジュールと性能を考えれば納得できる数字である。
下の画像を基にすれば、1タイルでも22TFlopsを超える性能を持ち、しかも300W未満の消費電力なので、そうしたニーズは多くありそうに思える。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ














