ロードマップでわかる!当世プロセッサー事情 第644回
業界初のマルチダイGPUとなるRadeon Instinct MI200の見事な構成 AMD GPUロードマップ
2021年12月06日 12時00分更新
FrontierはInfinity Fabric経由でEPYCと接続
HPCはPCIe経由でEPYCと接続
最後にノード構成について。まずFrontier向けだが、連載635回で説明したようにFrontierではノードが1つのEPYCと4つのRadeon Instinct MI200から構成される。
ということは1つのノードには8つのRadeon Instinct MI200のダイが存在するわけで、この8つがすべて相互接続するのかも? ということで描いたのが下の図であるが、実際はもう少しシンプルであった。
もっともこれ、図を簡単化しているだけで、内部的には完全Point-to-Point接続なのかもしれない。200Gbps NICというのはCray(というよりHPE)のSlingshot I/Fのことだ
決定的に違うのは、EPYCとの接続がCCIXではなくInfinity Fabricでの接続になっていることだ。正直これは意外だった。ということは、PCIe/CCIXではなく、Infinity Fabric経由でEPYCからRadeon InstinctをアクセスするためのAPIが、RoCmで提供されるかと思われる。
ただ、AMDとしては別にFrontier「だけ」にRadeon Instinct MI200を提供するつもりではなく、広くさまざまな用途向けに提供することを考えている。下の画像がメインストリームのHPC/機械学習向けの構成で、4つのMI200同士は相互にInfinity Fabricで接続されるが、それとCPUの接続はPCIe経由となるというものだ。
システム全体へのインターコネクトもCPU側に置かれる構造になる。またRadeon Instinctで機械学習向けのハイエンドシステムを構築した例が下の画像だ。8枚のMI200でノードを構成するイメージとなる。
MI200の性能はNVIDIA A100の約2倍前後
ラインナップはMI250X、MI250、MI210の3製品
ここからは性能と製品構成について説明しよう。性能に関しては非常に限られているが、NVIDIA A100との比較が下の画像だ。2020年に出たNVIDIA A100に負けていたらお話にならないわけで、後追いである以上当然性能は向上している。
次にラインナップであるが、まずOAMタイプでRadeon Instinct MI250XとMI250が投入され、PCIeカードタイプのRadeon Instinct MI210は後追いとなる。
そのOAMタイプ2製品であるが、以下のようになっている。
| Matrix Unitの構成 | ||||||
|---|---|---|---|---|---|---|
| MI250X | MI250 | |||||
| XCU数 | 220 | 208 | ||||
| 動作周波数(Boost) | 1700MHz | 1700MHz | ||||
| FP32/64 Vector(Peak) | 47.9TFlops | 45.3TFlops | ||||
| FP32/64 Matrix(Peak) | 95.7TFlops | 90.5TFlops | ||||
| FP16/BF16(Peak) | 383.0TFlops | 362.1TFlops | ||||
| INT4/INT8(Peak) | 383.0TOPS | 362.1TOPS | ||||
| HBM2e | 128GB | 128GB | ||||
| TDP | 560W | 500W | ||||
実はOAMの場合、12V供給で許容されるのは最大350Wまでであり、48/54V供給では700Wまで可能という仕様になっている。おそらくはMI250X/MI250ともにOAMは48V供給の形になっていると想像される。
また先にMI250Xは1700MHz駆動と説明したが、ではMI250は? というと、計算では1701.4MHzになるので、動作周波数は変わらずにCU数だけ208に減らした構成になるようだ。TDPの数字はAMDのホワイトペーパーからの抜粋だが、CUを12個減らすだけで60Wも減るのか? というと少し疑問ではある。この数字はピーク値らしいので、実際はもう少し差が少ないのかもしれない。
ちなみにFrontierの場合、何度も繰り返すがMI250Xが4枚+Milan-Xで1ノードである。ということはMI250X×4+EPYCで2520W。マザーボードやメモリー、ネットワークカードまで入れるとノードあたり3KW弱といったところ。これが9000ノードだと27MWほどになる。Frontierの性能を示す数字にあるPower Consumption 30MWattを実現するのはけっこう難しいように思うのだが、さて実際はどんな具合になるのだろうか? 来年6月のTOP500ではそのあたりの数字も出てくるはずであり、結果が楽しみである。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ







