ロードマップでわかる!当世プロセッサー事情 第644回
業界初のマルチダイGPUとなるRadeon Instinct MI200の見事な構成 AMD GPUロードマップ
2021年12月06日 12時00分更新
FrontierはInfinity Fabric経由でEPYCと接続
HPCはPCIe経由でEPYCと接続
最後にノード構成について。まずFrontier向けだが、連載635回で説明したようにFrontierではノードが1つのEPYCと4つのRadeon Instinct MI200から構成される。
ということは1つのノードには8つのRadeon Instinct MI200のダイが存在するわけで、この8つがすべて相互接続するのかも? ということで描いたのが下の図であるが、実際はもう少しシンプルであった。
決定的に違うのは、EPYCとの接続がCCIXではなくInfinity Fabricでの接続になっていることだ。正直これは意外だった。ということは、PCIe/CCIXではなく、Infinity Fabric経由でEPYCからRadeon InstinctをアクセスするためのAPIが、RoCmで提供されるかと思われる。
ただ、AMDとしては別にFrontier「だけ」にRadeon Instinct MI200を提供するつもりではなく、広くさまざまな用途向けに提供することを考えている。下の画像がメインストリームのHPC/機械学習向けの構成で、4つのMI200同士は相互にInfinity Fabricで接続されるが、それとCPUの接続はPCIe経由となるというものだ。
システム全体へのインターコネクトもCPU側に置かれる構造になる。またRadeon Instinctで機械学習向けのハイエンドシステムを構築した例が下の画像だ。8枚のMI200でノードを構成するイメージとなる。
MI200の性能はNVIDIA A100の約2倍前後
ラインナップはMI250X、MI250、MI210の3製品
ここからは性能と製品構成について説明しよう。性能に関しては非常に限られているが、NVIDIA A100との比較が下の画像だ。2020年に出たNVIDIA A100に負けていたらお話にならないわけで、後追いである以上当然性能は向上している。
次にラインナップであるが、まずOAMタイプでRadeon Instinct MI250XとMI250が投入され、PCIeカードタイプのRadeon Instinct MI210は後追いとなる。
そのOAMタイプ2製品であるが、以下のようになっている。
Matrix Unitの構成 | ||||||
---|---|---|---|---|---|---|
MI250X | MI250 | |||||
XCU数 | 220 | 208 | ||||
動作周波数(Boost) | 1700MHz | 1700MHz | ||||
FP32/64 Vector(Peak) | 47.9TFlops | 45.3TFlops | ||||
FP32/64 Matrix(Peak) | 95.7TFlops | 90.5TFlops | ||||
FP16/BF16(Peak) | 383.0TFlops | 362.1TFlops | ||||
INT4/INT8(Peak) | 383.0TOPS | 362.1TOPS | ||||
HBM2e | 128GB | 128GB | ||||
TDP | 560W | 500W |
実はOAMの場合、12V供給で許容されるのは最大350Wまでであり、48/54V供給では700Wまで可能という仕様になっている。おそらくはMI250X/MI250ともにOAMは48V供給の形になっていると想像される。
また先にMI250Xは1700MHz駆動と説明したが、ではMI250は? というと、計算では1701.4MHzになるので、動作周波数は変わらずにCU数だけ208に減らした構成になるようだ。TDPの数字はAMDのホワイトペーパーからの抜粋だが、CUを12個減らすだけで60Wも減るのか? というと少し疑問ではある。この数字はピーク値らしいので、実際はもう少し差が少ないのかもしれない。
ちなみにFrontierの場合、何度も繰り返すがMI250Xが4枚+Milan-Xで1ノードである。ということはMI250X×4+EPYCで2520W。マザーボードやメモリー、ネットワークカードまで入れるとノードあたり3KW弱といったところ。これが9000ノードだと27MWほどになる。Frontierの性能を示す数字にあるPower Consumption 30MWattを実現するのはけっこう難しいように思うのだが、さて実際はどんな具合になるのだろうか? 来年6月のTOP500ではそのあたりの数字も出てくるはずであり、結果が楽しみである。
この連載の記事
-
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ