ロードマップでわかる!当世プロセッサー事情 第579回
Tiger Lakeの内蔵GPU「Xe LP」は前世代のほぼ2倍の性能/消費電力比を実現 インテル GPUロードマップ
2020年09月07日 12時00分更新
このロードマップ連載もすでに579回、第1回から数えると11年を超えて12年目に入るわけだが、その中でインテルのGPUというテーマで取り上げるのはこれが最初である。
もちろんLarrabeeなどは扱ったし、チップセットの絡みでG965の回で部分的に触れたりはしたが、(GPGPUではなく)GPUとして扱うのはこれが初めてだったりする。ということで、今回は少し昔の話から。
16のExecution Unitで構成される
XeのSubslice
下の画像はXeに至る道ということで、Gen1(Intel 740のことだ)~Gen11を経てTiger Lake世代からXeに切り替わるという歴史を語っている。
さてそのXeだが、以前はXe LP/HP/HPCの3種類しか存在しなかったのが、今回Xe HPGというエンスージアスト向けGPUがラインナップに加わったことが明らかにされた。
そのXeの基本構造がこちら。各々のユニットをどの程度内蔵するかはSKUによって当然変わってくる。
まず3D/Compute Sliceの構造がこちら。Subsliceの数も変更可能になっている。
おのおののSubsliceの構造がこちら。16EU(Execution Unit)とキャッシュ、Thread DispatchとLoad/Storeユニットは共通で、SamplerやRay Tracing Unitはオプション扱いである。
下の画像がEUの詳細だが、これだとややわかりにくいかもしれない。
下の画像2つはArchitecture Dayの資料だが、Gen11までのEUは4-wideのFP/Int ALUと同じく4wideのFP/Extended Math ALUの組み合わせになっており、これを利用することで最大8wideの演算が可能であったが、ただしExtended Mathが発生すると右側のエンジンはそれに占有されてしまうので、4wide相当に性能が落ちることになる。
対してXeでは、8wideのFP/INT ALU+2wideのExtended Math ALUという構成になり、Extended Mathと並行して8wideのALUが動作することになる。
したがってピーク性能そのもので言えばFP32やInt32が16FLOPS、FP16では32FLOPSということでGen11世代と違いはないが、実効性能はやや引き上げられた形になる。
ちなみに、ここに出てくるDP4Aの処理は下の画像のようなもので、Dot Product(ドット積)の計算の際に利用される。Xe EUはこれを8wideで実行できるわけだ。
この連載の記事
-
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ