Hot Chips 34で判明したAMDのInstinct MI200とインテルのPonte Vecchioの詳細　AMD/インテル GPUロードマップ

2022年09月05日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

　前回に引き続き、今週もHot Chips 34から。といっても実はコンシューマー向けの話はあまりない。今週のお題はAMDのInstinct MI200とインテルのPonte Vecchioである。

物理層の最下層(PHY)にかなり性能的にゆとりがある
AMD Instinct MI200

　Instinct MI200の基本的な内部構造は連載644回で説明した。これを最初に採用したスーパーコンピューターFrontierにおけるノード構造は連載635回、ノード数や動作周波数などは連載670回でそれぞれ説明している。

　またFrontierで利用されているインターコネクトであるSlingshot-11の詳細は連載681回で説明している。したがって基本的な説明は一通り終わっているわけだが、今回Hot Chipsでいくつか新しい情報が公開されたので、これを補足説明しておきたい。

　まずダイ内部のレイアウトが下の画像だ。Shader EngineとされているのはXCUのことであって、わかりやすさのためにあえてShader Engineという表記にしたのだろう。

ダイサイズそのものは今回も発表されず

　それはともかく、それぞれのInfinity Fabricのリンク速度が今回公開された。外部接続向けは最大で144GB/秒だが、Instinct MI250同士の接続に利用される場合は125GB/秒×4という構成になる。そしてオンパッケージ上の2つのダイは、400GB/秒ということになっている。

　「なんだこの数字？」ということになるのだが、どうもInstinct MI200のPHYはかなり性能的にゆとりがあるらしい。まずPCI Expressを利用する場合だが、定格ではPCIe Gen4だから16GT/秒、x16構成だとトータルで32GB/秒が上限である。

　ところが特定の製品との組み合わせでは、レーンあたり25GT/秒まで引っ張れることがSlingshot-11の説明の中で明らかにされている。これだと16レーンで50GB/秒。Instinct MI250ではそれぞれのダイにPCIe I/Fが用意されているから、合計で100GB/秒という計算になる。

　次はExternal Infinity Fabricの500GB/秒だが、これは8つのI/FのInfinity Fabricすべての合計で、1つのI/Fあたりで言えば62.5GB/秒である。AMDはInfinity Fabricのレーン数を公開していない(実はこれは比較的自由に設定可能であり、x16とは限らない)のだが、EPYCへの接続を考慮すると、x16構成のままと考えるのが妥当ではある。となるとレーンあたりの速度は31.25GT/秒まで引きあがることになる。ほぼPCIe Gen5の速度に等しいのだが、独自規格で接続するのであれば技術的にはそう難しくはない。

　不明なのは2つのダイを接続するIn-Package Infinity Fabricである。4つのI/Fで400GB/秒なので1つのI/Fあたり100GB/秒となる。ここも図では16対の信号で接続されているように見えるので、1対あたり6.25GB/秒、転送速度にすると50GT/秒まで速度が上がる計算になる。これはけっこう厳しい感じに見えなくもないが、この2つのダイの接続はElevated Fanout Bridge 2.5Dを利用したシリコン・インターポーザー経由なので、この程度まで速度を上げても大丈夫、ということなのだろう。

　こうしてみると、I/Fの接続箇所に応じて速度がけっこう異なる、というのもInstinct MI200の特徴と言えるのかもしれない。ではなぜこのダイ間接続のみ速度を大きく引き上げたか、という理由が下の画像だ。

もともとHBM2eの帯域は1個あたり400GB/秒になるわけで、その意味ではXCUから見るとInfinity Fabricの先は5つ目のHBM2eスタックと見えなくもない

　2つのダイのNoC同士を高速に接続するためである。左下にあるように“Unified Shader Memory across GCDs”、つまりパッケージの上に載った2つのダイ上のXCUは、アクセスするメモリーの先がローカル側のHBM2eか、リモート側のHBM2eかを区別しない。したがって、リモート側のアクセスが発生した場合にも、それなりの性能でアクセスを担保する必要がある。

　もともとHBM2eは、ここにもあるように32chに物理的に分割してアクセスされており、1chあたりの帯域で言えば50GB/秒になる。これが32ch同時にアクセスする形になるが、一方でInfinity Fabric経由での帯域は50GB/秒づつ8ch分という形になる。

　1つのXCUから、複数のchを同時にアクセスすることはないので、そうなるとローカルHBM2eであってもリモートHBM2eであっても、XCUから見た帯域そのものは変わらいことになる。もちろん実際にはInfinity Fabricを経由すると若干レイテンシーが増えると想定されることと、8ch分しか用意されないから、同時に多数のXCUからリモートHBM2eへのアクセスが発生すると、Infinity Fabric側の取り合いになってここで遅延が発生することは避けられないが、これはプログラミングで回避できるレベルの話である。

　このGPU同士のダイレベルでの接続は、おそらく年末に登場するであろうRDNA3でも採用されていると見られる。構成は連載653回で説明した通りで、こちらはWGP(＋L1)＋L2のダイとInfinity Cacheのダイの間の接続という形になるが、やはりElevated Fanout Bridge 2.5Dを利用しての接続になると筆者は考えている。

　新しい話はおおむね以上であるが、今回Frontierの実際のノードの写真が公開された。