ロードマップでわかる!当世プロセッサー事情 第644回
業界初のマルチダイGPUとなるRadeon Instinct MI200の見事な構成 AMD GPUロードマップ
2021年12月06日 12時00分更新
FrontierはInfinity Fabric経由でEPYCと接続
HPCはPCIe経由でEPYCと接続
最後にノード構成について。まずFrontier向けだが、連載635回で説明したようにFrontierではノードが1つのEPYCと4つのRadeon Instinct MI200から構成される。
ということは1つのノードには8つのRadeon Instinct MI200のダイが存在するわけで、この8つがすべて相互接続するのかも? ということで描いたのが下の図であるが、実際はもう少しシンプルであった。
決定的に違うのは、EPYCとの接続がCCIXではなくInfinity Fabricでの接続になっていることだ。正直これは意外だった。ということは、PCIe/CCIXではなく、Infinity Fabric経由でEPYCからRadeon InstinctをアクセスするためのAPIが、RoCmで提供されるかと思われる。
ただ、AMDとしては別にFrontier「だけ」にRadeon Instinct MI200を提供するつもりではなく、広くさまざまな用途向けに提供することを考えている。下の画像がメインストリームのHPC/機械学習向けの構成で、4つのMI200同士は相互にInfinity Fabricで接続されるが、それとCPUの接続はPCIe経由となるというものだ。
システム全体へのインターコネクトもCPU側に置かれる構造になる。またRadeon Instinctで機械学習向けのハイエンドシステムを構築した例が下の画像だ。8枚のMI200でノードを構成するイメージとなる。
MI200の性能はNVIDIA A100の約2倍前後
ラインナップはMI250X、MI250、MI210の3製品
ここからは性能と製品構成について説明しよう。性能に関しては非常に限られているが、NVIDIA A100との比較が下の画像だ。2020年に出たNVIDIA A100に負けていたらお話にならないわけで、後追いである以上当然性能は向上している。
次にラインナップであるが、まずOAMタイプでRadeon Instinct MI250XとMI250が投入され、PCIeカードタイプのRadeon Instinct MI210は後追いとなる。
そのOAMタイプ2製品であるが、以下のようになっている。
Matrix Unitの構成 | ||||||
---|---|---|---|---|---|---|
MI250X | MI250 | |||||
XCU数 | 220 | 208 | ||||
動作周波数(Boost) | 1700MHz | 1700MHz | ||||
FP32/64 Vector(Peak) | 47.9TFlops | 45.3TFlops | ||||
FP32/64 Matrix(Peak) | 95.7TFlops | 90.5TFlops | ||||
FP16/BF16(Peak) | 383.0TFlops | 362.1TFlops | ||||
INT4/INT8(Peak) | 383.0TOPS | 362.1TOPS | ||||
HBM2e | 128GB | 128GB | ||||
TDP | 560W | 500W |
実はOAMの場合、12V供給で許容されるのは最大350Wまでであり、48/54V供給では700Wまで可能という仕様になっている。おそらくはMI250X/MI250ともにOAMは48V供給の形になっていると想像される。
また先にMI250Xは1700MHz駆動と説明したが、ではMI250は? というと、計算では1701.4MHzになるので、動作周波数は変わらずにCU数だけ208に減らした構成になるようだ。TDPの数字はAMDのホワイトペーパーからの抜粋だが、CUを12個減らすだけで60Wも減るのか? というと少し疑問ではある。この数字はピーク値らしいので、実際はもう少し差が少ないのかもしれない。
ちなみにFrontierの場合、何度も繰り返すがMI250Xが4枚+Milan-Xで1ノードである。ということはMI250X×4+EPYCで2520W。マザーボードやメモリー、ネットワークカードまで入れるとノードあたり3KW弱といったところ。これが9000ノードだと27MWほどになる。Frontierの性能を示す数字にあるPower Consumption 30MWattを実現するのはけっこう難しいように思うのだが、さて実際はどんな具合になるのだろうか? 来年6月のTOP500ではそのあたりの数字も出てくるはずであり、結果が楽しみである。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ