ロードマップでわかる!当世プロセッサー事情 第579回
Tiger Lakeの内蔵GPU「Xe LP」は前世代のほぼ2倍の性能/消費電力比を実現 インテル GPUロードマップ
2020年09月07日 12時00分更新
このロードマップ連載もすでに579回、第1回から数えると11年を超えて12年目に入るわけだが、その中でインテルのGPUというテーマで取り上げるのはこれが最初である。
もちろんLarrabeeなどは扱ったし、チップセットの絡みでG965の回で部分的に触れたりはしたが、(GPGPUではなく)GPUとして扱うのはこれが初めてだったりする。ということで、今回は少し昔の話から。
16のExecution Unitで構成される
XeのSubslice
下の画像はXeに至る道ということで、Gen1(Intel 740のことだ)~Gen11を経てTiger Lake世代からXeに切り替わるという歴史を語っている。

Gen2は当初Intel 752/754として外付けで発売予定だったが、あまりにGen1(Intel 740)の評判が悪かったためにキャンセル。このグラフィックコアを流用したのがIntel 810やIntel 815である
さてそのXeだが、以前はXe LP/HP/HPCの3種類しか存在しなかったのが、今回Xe HPGというエンスージアスト向けGPUがラインナップに加わったことが明らかにされた。

もっとも連載472回で紹介したどうみてもただのモックアップな画像を鑑みるに、エンスージアスト向けは最初から既定路線で、一時的にひっこめていただけかもしれない
そのXeの基本構造がこちら。各々のユニットをどの程度内蔵するかはSKUによって当然変わってくる。
まず3D/Compute Sliceの構造がこちら。Subsliceの数も変更可能になっている。
おのおののSubsliceの構造がこちら。16EU(Execution Unit)とキャッシュ、Thread DispatchとLoad/Storeユニットは共通で、SamplerやRay Tracing Unitはオプション扱いである。
下の画像がEUの詳細だが、これだとややわかりにくいかもしれない。

EUの詳細。XMXは、おそらくであるが連載569回で紹介したAMXに対応するもの(CPU側がAMX、GPU側がXMX)と思われる。つまりXe GPUがCPUのアクセラレーターとしてシームレスに連携して動くと期待される
下の画像2つはArchitecture Dayの資料だが、Gen11までのEUは4-wideのFP/Int ALUと同じく4wideのFP/Extended Math ALUの組み合わせになっており、これを利用することで最大8wideの演算が可能であったが、ただしExtended Mathが発生すると右側のエンジンはそれに占有されてしまうので、4wide相当に性能が落ちることになる。

Gen11 EUの場合、1サイクルあたりFP32とInt32のMAC演算なら16FLOPS、FP16なら32FLOPSの演算だった。積和(=1演算が2FLOPS)での数字なので、要するに8本の演算パイプがフル稼働する形である

Gen11とのもう1つの違いは、Gen11はEUごとにThread Controlが独立しているが、Xeでは複数EUを横に貫く形でまとめてThread Controlが行なわれている。これで、スレッド制御がより効率的に行なえるとしている
対してXeでは、8wideのFP/INT ALU+2wideのExtended Math ALUという構成になり、Extended Mathと並行して8wideのALUが動作することになる。
したがってピーク性能そのもので言えばFP32やInt32が16FLOPS、FP16では32FLOPSということでGen11世代と違いはないが、実効性能はやや引き上げられた形になる。
ちなみに、ここに出てくるDP4Aの処理は下の画像のようなもので、Dot Product(ドット積)の計算の際に利用される。Xe EUはこれを8wideで実行できるわけだ。

この連載の記事
- 第711回 Teslaの自動運転に欠かせない車載AI「FSD」 AIプロセッサーの昨今
- 第710回 Rialto BridgeとLancaster Soundが開発中止へ インテル CPUロードマップ
- 第709回 電気自動車のTeslaが手掛ける自動運転用システムDojo AIプロセッサーの昨今
- 第708回 Doomの自動プレイが可能になったNDP200 AIプロセッサーの昨今
- 第707回 Xeon W-3400/W-2400シリーズはワークステーション市場を奪い返せるか? インテル CPUロードマップ
- 第706回 なぜかRISC-Vに傾倒するTenstorrent AIプロセッサーの昨今
- 第705回 メモリーに演算ユニットを内蔵した新興企業のEnCharge AI AIプロセッサーの昨今
- 第704回 自動運転に必要な車載チップを開発するフランスのVSORA AIプロセッサーの昨今
- 第703回 音声にターゲットを絞ったSyntiant AIプロセッサーの昨今
- 第702回 計52製品を発表したSapphire Rapidsの内部構造に新情報 インテル CPUロードマップ
- 第701回 性能が8倍に向上したデータセンター向けAPU「Instinct MI300」 AMD CPUロードマップ
- この連載の一覧へ