ISC High Performance 2022が5月29日から独ハンブルグで、2年ぶりに実イベントとして開催された。TOP500を形成する2つのイベント(もう1つはSC:The International Conference for High Performance Computing, Networking, Storage, and Analysisで、こちらはSC22が今年11月に開催予定である)の片方であり、これにともないTOP500のランキングが更新されることになった。
今年の最大のトピックは、ついに富岳の首位脱落である。とは言え4期連続でTOP500首位を守ったシステムでもあり、まだ2位を確保しているあたりは立派である。さて、その富岳を退けて堂々首位に躍り出たのが、AMDとCRAYの共同開発でオークリッジ国立研究所に納入されたFrontierである。
Frontierについて最初に説明したのは連載510回である。ただこの時は契約が成立したというニュースで具体的な話はまだ藪の中だった。
ところが2021年9月にAMDからFrontier周りに関して少々情報が出てきたことで、これに関して連載635回で解説した。ついでAMD Instinct MI200シリーズの発表にあわせて連載644回でもう少し精度を上げた情報を紹介している。
ただこの連載644回についても、ノードの構成そのものはわかったものの動作周波数や消費電力などは不明なままで、またノード数もわからなかった。このあたりが今回一応クリアになったことになる。
Frontierの勝因は動作周波数を下げて
性能/消費電力比を向上させたこと
そのFrontier、今回登録された情報が下の画像である。理論ピーク性能で1.7EFlops弱、実効性能でも1.1EFlopsというのは堂々たる数字であり、また消費電力は21.1MWに抑えられている。連載第635回の最後でも少し触れたが、米エネルギー省のExascale Initiativeの設計目標は1 EFlops/20MWであった(のちに難しいとして30MWになった)。
今回は実効で1.1EFlops/21MWなので、1EFlopsあたりの消費電力は19MWほどであり、当初のExascale Initiativeの目標を見事にクリアしたことになる。これはなかなか驚異的な記録として良いだろう。
なぜこれが可能になったか? を構成から見てみよう。まずコア数について。連載644回でも紹介したように、FrontierではEPYC×1+AMD Instinct MI250×4で1ノードの構成になる。上の画像にもあるように、EPYCそのものは64コアとなっている。一方のAMD Instinct MI250だが、連載第644回の最後の表にあるようにMI250XだとXCUが220個となる。
これもコアと数えると、1ノードあたりのコア数は64+220×4=944コアとなる。総コア数(8,730,112)で割ると、ノード数は9248と出てくる。これはわりと条件に合っているというか、9000ノード以上という事前情報にもきっちり合うし、そもそも数字がキレイに割り切れるのでかなり信頼度が高い。(ちなみに208 XCUのMI250を使ったとすると、ノード数が9743.4285……になる)。なので、64コアEPYC+4×MI250X、という構成のノードが9248個と考えるのが妥当であろう。
次は動作周波数である。上の画像によればRpeak、要するに理論性能は1685.65PFlopsとされる。これを9248で割るとノードあたり182TFlopsと計算される(それも余りがなく、キレイに割り切れる)。EPYCは2GHz駆動とされるから、FP64だと2TFlopsで、つまりAMD Instinct MI250Xが4つで180TFlops、1個45TFlopsという計算になる。
この数字は、実はAMD Instinct MI250Xのスペックに合わない。AMD Instinct MI250Xは1.7GHz駆動で47.9TFlopsだからだ。ところがこれを1.6GHzにクロックダウンして使うと、ちょうど45TFlopsになる。この場合、消費電力はおそらく500Wをやや下回る程度に抑えられることになる。
これはCPUも同じだ。64コアということはEPYC 7713/EPYC 7713P/EPYC 7763/EPYC 7773Xのいずれかになるのだが、3D V-Cacheを搭載したMilan-XはBase 2.2GHz/Boost 3.5GHzでTDP 280WのEPYC 7773Xのみとなっており、これは候補から外れることになる。
ではEPYC 7713ないし7713Pか? ということになるのだが、おそらくFrontierにはEPYC 7773XをBase 2.0GHzにダウンクロックしたものが納入されているだろう。そうすればTDPは225Wに抑えられることになる。
実際には3D V-Cacheを使うとメモリーアクセスが抑えられる分、消費電力がやや低めに推移する(Ryzen 7 5800X3Dで筆者が試した際には、アプリケーションにも依存するが平均して実効消費電力が1割程度下がった)ことも期待できる。実施には200W程度での動作を可能にしているのではないかと思う。
これを組み合わせるとノードあたり500W×4+200W=2.2KW。これが9248ノードだと20.3MWという計算だ。実際にはノード間インターコネクトやストレージなどの分も加味しないといけないので21MWには厳しいが、仮にもう少しAMD Instinct MI250Xの消費電力が下がるとノードあたり2.1KWくらいに抑えられるわけで、そうすると9248ノードで19.4MWほど。
これにインターコネクトその他を加えて21MWというのはかなり現実的な試算となる。消費電力を抑えるためにやや低めの動作周波数で稼働させることで、Frontierは性能と消費電力の目標を両立することに成功した、と考えて良いだろう。
この連載の記事
-
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ - この連載の一覧へ