ロードマップでわかる!当世プロセッサー事情 第683回
Hot Chips 34で判明したAMDのInstinct MI200とインテルのPonte Vecchioの詳細 AMD/インテル GPUロードマップ
2022年09月05日 12時00分更新
前回に引き続き、今週もHot Chips 34から。といっても実はコンシューマー向けの話はあまりない。今週のお題はAMDのInstinct MI200とインテルのPonte Vecchioである。
物理層の最下層(PHY)にかなり性能的にゆとりがある
AMD Instinct MI200
Instinct MI200の基本的な内部構造は連載644回で説明した。これを最初に採用したスーパーコンピューターFrontierにおけるノード構造は連載635回、ノード数や動作周波数などは連載670回でそれぞれ説明している。
またFrontierで利用されているインターコネクトであるSlingshot-11の詳細は連載681回で説明している。したがって基本的な説明は一通り終わっているわけだが、今回Hot Chipsでいくつか新しい情報が公開されたので、これを補足説明しておきたい。
まずダイ内部のレイアウトが下の画像だ。Shader EngineとされているのはXCUのことであって、わかりやすさのためにあえてShader Engineという表記にしたのだろう。
それはともかく、それぞれのInfinity Fabricのリンク速度が今回公開された。外部接続向けは最大で144GB/秒だが、Instinct MI250同士の接続に利用される場合は125GB/秒×4という構成になる。そしてオンパッケージ上の2つのダイは、400GB/秒ということになっている。
「なんだこの数字?」ということになるのだが、どうもInstinct MI200のPHYはかなり性能的にゆとりがあるらしい。まずPCI Expressを利用する場合だが、定格ではPCIe Gen4だから16GT/秒、x16構成だとトータルで32GB/秒が上限である。
ところが特定の製品との組み合わせでは、レーンあたり25GT/秒まで引っ張れることがSlingshot-11の説明の中で明らかにされている。これだと16レーンで50GB/秒。Instinct MI250ではそれぞれのダイにPCIe I/Fが用意されているから、合計で100GB/秒という計算になる。
次はExternal Infinity Fabricの500GB/秒だが、これは8つのI/FのInfinity Fabricすべての合計で、1つのI/Fあたりで言えば62.5GB/秒である。AMDはInfinity Fabricのレーン数を公開していない(実はこれは比較的自由に設定可能であり、x16とは限らない)のだが、EPYCへの接続を考慮すると、x16構成のままと考えるのが妥当ではある。となるとレーンあたりの速度は31.25GT/秒まで引きあがることになる。ほぼPCIe Gen5の速度に等しいのだが、独自規格で接続するのであれば技術的にはそう難しくはない。
不明なのは2つのダイを接続するIn-Package Infinity Fabricである。4つのI/Fで400GB/秒なので1つのI/Fあたり100GB/秒となる。ここも図では16対の信号で接続されているように見えるので、1対あたり6.25GB/秒、転送速度にすると50GT/秒まで速度が上がる計算になる。これはけっこう厳しい感じに見えなくもないが、この2つのダイの接続はElevated Fanout Bridge 2.5Dを利用したシリコン・インターポーザー経由なので、この程度まで速度を上げても大丈夫、ということなのだろう。
こうしてみると、I/Fの接続箇所に応じて速度がけっこう異なる、というのもInstinct MI200の特徴と言えるのかもしれない。ではなぜこのダイ間接続のみ速度を大きく引き上げたか、という理由が下の画像だ。
2つのダイのNoC同士を高速に接続するためである。左下にあるように“Unified Shader Memory across GCDs”、つまりパッケージの上に載った2つのダイ上のXCUは、アクセスするメモリーの先がローカル側のHBM2eか、リモート側のHBM2eかを区別しない。したがって、リモート側のアクセスが発生した場合にも、それなりの性能でアクセスを担保する必要がある。
もともとHBM2eは、ここにもあるように32chに物理的に分割してアクセスされており、1chあたりの帯域で言えば50GB/秒になる。これが32ch同時にアクセスする形になるが、一方でInfinity Fabric経由での帯域は50GB/秒づつ8ch分という形になる。
1つのXCUから、複数のchを同時にアクセスすることはないので、そうなるとローカルHBM2eであってもリモートHBM2eであっても、XCUから見た帯域そのものは変わらいことになる。もちろん実際にはInfinity Fabricを経由すると若干レイテンシーが増えると想定されることと、8ch分しか用意されないから、同時に多数のXCUからリモートHBM2eへのアクセスが発生すると、Infinity Fabric側の取り合いになってここで遅延が発生することは避けられないが、これはプログラミングで回避できるレベルの話である。
このGPU同士のダイレベルでの接続は、おそらく年末に登場するであろうRDNA3でも採用されていると見られる。構成は連載653回で説明した通りで、こちらはWGP(+L1)+L2のダイとInfinity Cacheのダイの間の接続という形になるが、やはりElevated Fanout Bridge 2.5Dを利用しての接続になると筆者は考えている。
新しい話はおおむね以上であるが、今回Frontierの実際のノードの写真が公開された。
左側はInstinct MI250XのOAMが4つ並び、右側はEPYCのマザーボードに被さるように、Cassini搭載のSlingshot-11 Network Cardが被さる格好だ。
マザーボード両脇のものはおそらくDDR4 DIMMと思われる。普通のサーバーと異なり空冷の効果が期待できなそうな筐体内なので、DIMM2枚を一組としてサーマルジャケットを装着し、そのサーマルジャケットを外部から冷やすような構成になっているように思える。
ただこれは液冷を前提としたシステムだから可能という話である。そこでもう少し現実的な構成としてGIGABYTEとSuperMicroのシステムも同時に紹介された。こちらの2つは、連載644回で紹介したこちらの構成を取ったシステムと思われる。
この連載の記事
-
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ