このページの本文へ

前へ 1 2 次へ

ロードマップでわかる!当世プロセッサー事情 第683回

Hot Chips 34で判明したAMDのInstinct MI200とインテルのPonte Vecchioの詳細 AMD/インテル GPUロードマップ

2022年09月05日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 前回に引き続き、今週もHot Chips 34から。といっても実はコンシューマー向けの話はあまりない。今週のお題はAMDのInstinct MI200とインテルのPonte Vecchioである。

物理層の最下層(PHY)にかなり性能的にゆとりがある
AMD Instinct MI200

 Instinct MI200の基本的な内部構造は連載644回で説明した。これを最初に採用したスーパーコンピューターFrontierにおけるノード構造は連載635回、ノード数や動作周波数などは連載670回でそれぞれ説明している。

 またFrontierで利用されているインターコネクトであるSlingshot-11の詳細は連載681回で説明している。したがって基本的な説明は一通り終わっているわけだが、今回Hot Chipsでいくつか新しい情報が公開されたので、これを補足説明しておきたい。

 まずダイ内部のレイアウトが下の画像だ。Shader EngineとされているのはXCUのことであって、わかりやすさのためにあえてShader Engineという表記にしたのだろう。

ダイサイズそのものは今回も発表されず

 それはともかく、それぞれのInfinity Fabricのリンク速度が今回公開された。外部接続向けは最大で144GB/秒だが、Instinct MI250同士の接続に利用される場合は125GB/秒×4という構成になる。そしてオンパッケージ上の2つのダイは、400GB/秒ということになっている。

 「なんだこの数字?」ということになるのだが、どうもInstinct MI200のPHYはかなり性能的にゆとりがあるらしい。まずPCI Expressを利用する場合だが、定格ではPCIe Gen4だから16GT/秒、x16構成だとトータルで32GB/秒が上限である。

 ところが特定の製品との組み合わせでは、レーンあたり25GT/秒まで引っ張れることがSlingshot-11の説明の中で明らかにされている。これだと16レーンで50GB/秒。Instinct MI250ではそれぞれのダイにPCIe I/Fが用意されているから、合計で100GB/秒という計算になる。

 次はExternal Infinity Fabricの500GB/秒だが、これは8つのI/FのInfinity Fabricすべての合計で、1つのI/Fあたりで言えば62.5GB/秒である。AMDはInfinity Fabricのレーン数を公開していない(実はこれは比較的自由に設定可能であり、x16とは限らない)のだが、EPYCへの接続を考慮すると、x16構成のままと考えるのが妥当ではある。となるとレーンあたりの速度は31.25GT/秒まで引きあがることになる。ほぼPCIe Gen5の速度に等しいのだが、独自規格で接続するのであれば技術的にはそう難しくはない。

 不明なのは2つのダイを接続するIn-Package Infinity Fabricである。4つのI/Fで400GB/秒なので1つのI/Fあたり100GB/秒となる。ここも図では16対の信号で接続されているように見えるので、1対あたり6.25GB/秒、転送速度にすると50GT/秒まで速度が上がる計算になる。これはけっこう厳しい感じに見えなくもないが、この2つのダイの接続はElevated Fanout Bridge 2.5Dを利用したシリコン・インターポーザー経由なので、この程度まで速度を上げても大丈夫、ということなのだろう。

 こうしてみると、I/Fの接続箇所に応じて速度がけっこう異なる、というのもInstinct MI200の特徴と言えるのかもしれない。ではなぜこのダイ間接続のみ速度を大きく引き上げたか、という理由が下の画像だ。

もともとHBM2eの帯域は1個あたり400GB/秒になるわけで、その意味ではXCUから見るとInfinity Fabricの先は5つ目のHBM2eスタックと見えなくもない

 2つのダイのNoC同士を高速に接続するためである。左下にあるように“Unified Shader Memory across GCDs”、つまりパッケージの上に載った2つのダイ上のXCUは、アクセスするメモリーの先がローカル側のHBM2eか、リモート側のHBM2eかを区別しない。したがって、リモート側のアクセスが発生した場合にも、それなりの性能でアクセスを担保する必要がある。

 もともとHBM2eは、ここにもあるように32chに物理的に分割してアクセスされており、1chあたりの帯域で言えば50GB/秒になる。これが32ch同時にアクセスする形になるが、一方でInfinity Fabric経由での帯域は50GB/秒づつ8ch分という形になる。

 1つのXCUから、複数のchを同時にアクセスすることはないので、そうなるとローカルHBM2eであってもリモートHBM2eであっても、XCUから見た帯域そのものは変わらいことになる。もちろん実際にはInfinity Fabricを経由すると若干レイテンシーが増えると想定されることと、8ch分しか用意されないから、同時に多数のXCUからリモートHBM2eへのアクセスが発生すると、Infinity Fabric側の取り合いになってここで遅延が発生することは避けられないが、これはプログラミングで回避できるレベルの話である。

 このGPU同士のダイレベルでの接続は、おそらく年末に登場するであろうRDNA3でも採用されていると見られる。構成は連載653回で説明した通りで、こちらはWGP(+L1)+L2のダイとInfinity Cacheのダイの間の接続という形になるが、やはりElevated Fanout Bridge 2.5Dを利用しての接続になると筆者は考えている。

 新しい話はおおむね以上であるが、今回Frontierの実際のノードの写真が公開された。

1Uの厚みでこれだけのユニットを実装しているわけで、密度がすごい

 左側はInstinct MI250XのOAMが4つ並び、右側はEPYCのマザーボードに被さるように、Cassini搭載のSlingshot-11 Network Cardが被さる格好だ。

 マザーボード両脇のものはおそらくDDR4 DIMMと思われる。普通のサーバーと異なり空冷の効果が期待できなそうな筐体内なので、DIMM2枚を一組としてサーマルジャケットを装着し、そのサーマルジャケットを外部から冷やすような構成になっているように思える。

 ただこれは液冷を前提としたシステムだから可能という話である。そこでもう少し現実的な構成としてGIGABYTEとSuperMicroのシステムも同時に紹介された。こちらの2つは、連載644回で紹介したこちらの構成を取ったシステムと思われる。

同じ2Uの厚みだが、GIGABYTEのシステムは1ノード分。ただしデュアルEPYC構成である。やや放熱が厳しそうな感じがする

SuperMicroのシステムは4Uでだいぶゆとりを感じる

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,390
2
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥660
3
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥980
4
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥5,280
5
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
¥1,780
6
Amazon Kindle Paperwhite (16GB) 7インチディスプレイ、色調調節ライト、12週間持続バッテリー、広告なし、ブラック
Amazon Kindle Paperwhite (16GB) 7インチディスプレイ、色調調節ライト、12週間持続バッテリー、広告なし、ブラック
¥18,980
7
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
8
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,590
9
Amazon Kindle - 目に優しい、かさばらない、大きな画面で読みやすい、6週間持続バッテリー、6インチディスプレイ電子書籍リーダー、ブラック、16GB、広告なし
Amazon Kindle - 目に優しい、かさばらない、大きな画面で読みやすい、6週間持続バッテリー、6インチディスプレイ電子書籍リーダー、ブラック、16GB、広告なし
¥13,980
10
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,645

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン