ロードマップでわかる!当世プロセッサー事情 第579回
Tiger Lakeの内蔵GPU「Xe LP」は前世代のほぼ2倍の性能/消費電力比を実現 インテル GPUロードマップ
2020年09月07日 12時00分更新
このロードマップ連載もすでに579回、第1回から数えると11年を超えて12年目に入るわけだが、その中でインテルのGPUというテーマで取り上げるのはこれが最初である。
もちろんLarrabeeなどは扱ったし、チップセットの絡みでG965の回で部分的に触れたりはしたが、(GPGPUではなく)GPUとして扱うのはこれが初めてだったりする。ということで、今回は少し昔の話から。
16のExecution Unitで構成される
XeのSubslice
下の画像はXeに至る道ということで、Gen1(Intel 740のことだ)~Gen11を経てTiger Lake世代からXeに切り替わるという歴史を語っている。
![](/img/2020/09/06/3090241/l/3aee6b363d51a1cf.jpg)
Gen2は当初Intel 752/754として外付けで発売予定だったが、あまりにGen1(Intel 740)の評判が悪かったためにキャンセル。このグラフィックコアを流用したのがIntel 810やIntel 815である
さてそのXeだが、以前はXe LP/HP/HPCの3種類しか存在しなかったのが、今回Xe HPGというエンスージアスト向けGPUがラインナップに加わったことが明らかにされた。
![](/img/2020/09/06/3090242/l/408667546912da9c.jpg)
もっとも連載472回で紹介したどうみてもただのモックアップな画像を鑑みるに、エンスージアスト向けは最初から既定路線で、一時的にひっこめていただけかもしれない
そのXeの基本構造がこちら。各々のユニットをどの程度内蔵するかはSKUによって当然変わってくる。
まず3D/Compute Sliceの構造がこちら。Subsliceの数も変更可能になっている。
おのおののSubsliceの構造がこちら。16EU(Execution Unit)とキャッシュ、Thread DispatchとLoad/Storeユニットは共通で、SamplerやRay Tracing Unitはオプション扱いである。
下の画像がEUの詳細だが、これだとややわかりにくいかもしれない。
![](/img/2020/09/06/3090223/l/a9ad0d88eeeea620.jpg)
EUの詳細。XMXは、おそらくであるが連載569回で紹介したAMXに対応するもの(CPU側がAMX、GPU側がXMX)と思われる。つまりXe GPUがCPUのアクセラレーターとしてシームレスに連携して動くと期待される
下の画像2つはArchitecture Dayの資料だが、Gen11までのEUは4-wideのFP/Int ALUと同じく4wideのFP/Extended Math ALUの組み合わせになっており、これを利用することで最大8wideの演算が可能であったが、ただしExtended Mathが発生すると右側のエンジンはそれに占有されてしまうので、4wide相当に性能が落ちることになる。
![](/img/2020/09/06/3090224/l/5f07d44f5d82e24b.jpg)
Gen11 EUの場合、1サイクルあたりFP32とInt32のMAC演算なら16FLOPS、FP16なら32FLOPSの演算だった。積和(=1演算が2FLOPS)での数字なので、要するに8本の演算パイプがフル稼働する形である
![](/img/2020/09/06/3090225/l/fc8e2ee695a33c79.jpg)
Gen11とのもう1つの違いは、Gen11はEUごとにThread Controlが独立しているが、Xeでは複数EUを横に貫く形でまとめてThread Controlが行なわれている。これで、スレッド制御がより効率的に行なえるとしている
対してXeでは、8wideのFP/INT ALU+2wideのExtended Math ALUという構成になり、Extended Mathと並行して8wideのALUが動作することになる。
したがってピーク性能そのもので言えばFP32やInt32が16FLOPS、FP16では32FLOPSということでGen11世代と違いはないが、実効性能はやや引き上げられた形になる。
ちなみに、ここに出てくるDP4Aの処理は下の画像のようなもので、Dot Product(ドット積)の計算の際に利用される。Xe EUはこれを8wideで実行できるわけだ。
![](/img/blank.gif)
この連載の記事
-
第777回
PC
Lunar Lakeはウェハー1枚からMeteor Lakeの半分しか取れない インテル CPUロードマップ -
第776回
PC
COMPUTEXで判明したZen 5以降のプロセッサー戦略 AMD CPU/GPUロードマップ -
第775回
PC
安定した転送速度を確保できたSCSI 消え去ったI/F史 -
第774回
PC
日本の半導体メーカーが開発協力に名乗りを上げた次世代Esperanto ET-SoC AIプロセッサーの昨今 -
第773回
PC
Sound Blasterが普及に大きく貢献したGame Port 消え去ったI/F史 -
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ - この連載の一覧へ