ロードマップでわかる!当世プロセッサー事情 第683回
Hot Chips 34で判明したAMDのInstinct MI200とインテルのPonte Vecchioの詳細 AMD/インテル GPUロードマップ
2022年09月05日 12時00分更新
前回に引き続き、今週もHot Chips 34から。といっても実はコンシューマー向けの話はあまりない。今週のお題はAMDのInstinct MI200とインテルのPonte Vecchioである。
物理層の最下層(PHY)にかなり性能的にゆとりがある
AMD Instinct MI200
Instinct MI200の基本的な内部構造は連載644回で説明した。これを最初に採用したスーパーコンピューターFrontierにおけるノード構造は連載635回、ノード数や動作周波数などは連載670回でそれぞれ説明している。
またFrontierで利用されているインターコネクトであるSlingshot-11の詳細は連載681回で説明している。したがって基本的な説明は一通り終わっているわけだが、今回Hot Chipsでいくつか新しい情報が公開されたので、これを補足説明しておきたい。
まずダイ内部のレイアウトが下の画像だ。Shader EngineとされているのはXCUのことであって、わかりやすさのためにあえてShader Engineという表記にしたのだろう。
それはともかく、それぞれのInfinity Fabricのリンク速度が今回公開された。外部接続向けは最大で144GB/秒だが、Instinct MI250同士の接続に利用される場合は125GB/秒×4という構成になる。そしてオンパッケージ上の2つのダイは、400GB/秒ということになっている。
「なんだこの数字?」ということになるのだが、どうもInstinct MI200のPHYはかなり性能的にゆとりがあるらしい。まずPCI Expressを利用する場合だが、定格ではPCIe Gen4だから16GT/秒、x16構成だとトータルで32GB/秒が上限である。
ところが特定の製品との組み合わせでは、レーンあたり25GT/秒まで引っ張れることがSlingshot-11の説明の中で明らかにされている。これだと16レーンで50GB/秒。Instinct MI250ではそれぞれのダイにPCIe I/Fが用意されているから、合計で100GB/秒という計算になる。
次はExternal Infinity Fabricの500GB/秒だが、これは8つのI/FのInfinity Fabricすべての合計で、1つのI/Fあたりで言えば62.5GB/秒である。AMDはInfinity Fabricのレーン数を公開していない(実はこれは比較的自由に設定可能であり、x16とは限らない)のだが、EPYCへの接続を考慮すると、x16構成のままと考えるのが妥当ではある。となるとレーンあたりの速度は31.25GT/秒まで引きあがることになる。ほぼPCIe Gen5の速度に等しいのだが、独自規格で接続するのであれば技術的にはそう難しくはない。
不明なのは2つのダイを接続するIn-Package Infinity Fabricである。4つのI/Fで400GB/秒なので1つのI/Fあたり100GB/秒となる。ここも図では16対の信号で接続されているように見えるので、1対あたり6.25GB/秒、転送速度にすると50GT/秒まで速度が上がる計算になる。これはけっこう厳しい感じに見えなくもないが、この2つのダイの接続はElevated Fanout Bridge 2.5Dを利用したシリコン・インターポーザー経由なので、この程度まで速度を上げても大丈夫、ということなのだろう。
こうしてみると、I/Fの接続箇所に応じて速度がけっこう異なる、というのもInstinct MI200の特徴と言えるのかもしれない。ではなぜこのダイ間接続のみ速度を大きく引き上げたか、という理由が下の画像だ。
2つのダイのNoC同士を高速に接続するためである。左下にあるように“Unified Shader Memory across GCDs”、つまりパッケージの上に載った2つのダイ上のXCUは、アクセスするメモリーの先がローカル側のHBM2eか、リモート側のHBM2eかを区別しない。したがって、リモート側のアクセスが発生した場合にも、それなりの性能でアクセスを担保する必要がある。
もともとHBM2eは、ここにもあるように32chに物理的に分割してアクセスされており、1chあたりの帯域で言えば50GB/秒になる。これが32ch同時にアクセスする形になるが、一方でInfinity Fabric経由での帯域は50GB/秒づつ8ch分という形になる。
1つのXCUから、複数のchを同時にアクセスすることはないので、そうなるとローカルHBM2eであってもリモートHBM2eであっても、XCUから見た帯域そのものは変わらいことになる。もちろん実際にはInfinity Fabricを経由すると若干レイテンシーが増えると想定されることと、8ch分しか用意されないから、同時に多数のXCUからリモートHBM2eへのアクセスが発生すると、Infinity Fabric側の取り合いになってここで遅延が発生することは避けられないが、これはプログラミングで回避できるレベルの話である。
このGPU同士のダイレベルでの接続は、おそらく年末に登場するであろうRDNA3でも採用されていると見られる。構成は連載653回で説明した通りで、こちらはWGP(+L1)+L2のダイとInfinity Cacheのダイの間の接続という形になるが、やはりElevated Fanout Bridge 2.5Dを利用しての接続になると筆者は考えている。
新しい話はおおむね以上であるが、今回Frontierの実際のノードの写真が公開された。
左側はInstinct MI250XのOAMが4つ並び、右側はEPYCのマザーボードに被さるように、Cassini搭載のSlingshot-11 Network Cardが被さる格好だ。
マザーボード両脇のものはおそらくDDR4 DIMMと思われる。普通のサーバーと異なり空冷の効果が期待できなそうな筐体内なので、DIMM2枚を一組としてサーマルジャケットを装着し、そのサーマルジャケットを外部から冷やすような構成になっているように思える。
ただこれは液冷を前提としたシステムだから可能という話である。そこでもう少し現実的な構成としてGIGABYTEとSuperMicroのシステムも同時に紹介された。こちらの2つは、連載644回で紹介したこちらの構成を取ったシステムと思われる。
この連載の記事
-
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 - この連載の一覧へ