2023年5月21日~25日にハンブルグでISC 23が開催され、ここでTOP500リストが更新されたが、引き続きAMD/HPEのFrontierが最高速の座を維持しており、Auroraはエントリーすらせず。
もっともこれは連載710回でも説明した通りで、本格稼働は今年7月以降になるとされているのである意味予定通りである。
説明によれば、「現在プロセッサーを交換している最中」だそうで、どうもとりあえずはXeon MaxではなくただのXeon Scalableの、それも製品版ではなくPRQ/PV版かなにかを装着した形で納入。そこで最低限の動作検証などを行ない、現在Xeon Maxに置き換えているのではないかと思われる。
ちなみにTOP500における説明会では、75%ほどの置き換えが完了していたそうで、これが完了するのに6月いっぱいはかかると思われる。
ということで、AuroraはTop500にはエントリーしていないのだが、ISC 23に合わせてインテルのJeff McVeigh氏が説明会を開き、ここでAuroraの動向や今後の製品アップデートなどをいろいろ説明した。ここからいくつかかいつまんで説明したい。
Auroraの性能は実質2 EFlops
消費電力は4500W
やっと、という感じではあるがAuroraの正式な構成が発表された。10624ノードで、1ノードあたり2 Xeon Max+6 GPU Maxなので、Xeon Maxは2万1248個、GPU Maxは6万3744個という構成になる。
以前連載710回で説明したように、Auroraでは1本のラックに64ノードが収まる格好だから、ラックの数は166本に達する。
ところでこのXeon MaxとGPU MaxがそれぞれどのSKUかは現時点では未公開であるが、仮にXeon MaxはハイエンドのXeon Max 9480、GPU Maxの方もハイエンドのGPU Max 1550だと想定した上でFP64の演算性能を計算してみよう。
Xeon Max 9480は動作周波数が1.90GHz、最大が3.50GHzであり、56コアでAVX512をフルに動かした場合は下表になる。
AVX512をフルに動かした場合の性能 | ||||||
---|---|---|---|---|---|---|
動作周波数 | 性能 | |||||
Base | 1702.4 GFlops | |||||
Max Boost | 3136.0 GFlops |
同様にGPU Max 1550も動作周波数が900MHz、最大1600MHzとなっており、128 Xe CoreのVector Engine(トータル1024基)をフルに動かすと下表になる。
Vector Engineをフルに動かした場合の性能 | ||||||
---|---|---|---|---|---|---|
動作周波数 | 性能 | |||||
Base | 29491.2 GFlops | |||||
Max Dynamic | 52428.8 GFlops |
この結果、ノードあたりの演算性能は以下のとおり。
ノードあたりの演算性能 | ||||||
---|---|---|---|---|---|---|
動作周波数 | 性能 | |||||
Base+Base | 180,352 GFlops | |||||
Max Boost+Max Dynamic | 320,845 GFlops |
これが10624ノードなので、システム全体での演算性能は下表になる。
システム全体の演算性能 | ||||||
---|---|---|---|---|---|---|
動作周波数 | 性能 | |||||
Base+Base | 1,916,059,648 GFlops | |||||
Max Boost+Max Dynamic | 3,408,655,155 GFlops |
データセンター向けに長期間連続稼働するという動作条件では、正直Max Boostの3.5GHzやMax Dynamicの1.6GHzでXeon MAXやGPU MAXが稼働することは考えづらい。実際にはBase Frequencyにかなり近いところで、ただそれよりも多少上かもという程度に考えておくのが無難であり、その意味では実質2 EFlopsの構成と考えるのが妥当だろう。
ただピークでは3.4 EFlopsを超えており、その意味ではFrontierはおろかEl Capitanをも上回る性能が(瞬間的には)可能かもしれない。
一方で消費電力は、Xeon Maxが350W、GPU Maxが600Wなので、1ノードあたりの消費電力は4300Wに達する。実際にはこれに加えて周辺回路(ネットワークその他)などもあるため、ラフに4500Wとしておいた方が無難だろうか。
連載710回で、Auroraのラックは1本あたりブレード80枚が装着可能で、うち64枚がAuroraブレード(というよりノード)で、残り16枚分のスペースに合計32個の電源ユニットが装着されているという話をしたが、下の写真からわかるように1つの電源ユニットあたり15KWの供給が可能である。
1つの電源ユニットから2枚のAuroraブレードに電源を供給するので、定格的には9KW出力で足りるように思えるのだが、それでは負荷変動などに耐えられないことを想定したのだろうか? 実際には定格を多少超えて運用しても大丈夫、という設計なのだろう。
ただノードあたり4500Wだとしても47.8MW。仮にこの電源の最大供給電力である15KWがフルに稼働するとすると、システム全体では80MWもの消費電力を必要とする。ちなみにこの数字にはSlingshotを使ったDragonfly Networkの分や冷却システムの消費電力、それとストレージ類などは一切考慮しておらず、これを加味すると定格でも60MWコース、フルに動かすと100MW近い消費電力になる計算である。
もちろん実際には定格稼働で47.8MWも消費しない可能性もあるので、もう少し下がるとは思いたいが、それでもノードだけで40MWを切れるかはかなり微妙に思える。システム全体での消費電力を60MWに抑えられ、しかも性能を実効で3 EFlopsまで高められればFrontierやEl Capitanに十分対抗できる計算になるのだが。
なお、最新のTop 500ではFrontierが若干性能を改善しており、1.194 EFlops/22.703MWということで、効率的にも1.052 EFlops/20MWほど。初回(1.102 EFlops/21.1MW≒1.045 EFlops/20MW)と若干改善している。次のEl Capitanは当然より高い効率を実現すると考えられるわけで、なかなかハードルは高そうだ。とりあえず実効性能でEl Capitanを上回れるのか、が次の焦点となるだろう。
この連載の記事
-
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ - この連載の一覧へ