システムの稼働率は51.2%ほど
稼働率100%での性能は2069.11PFlops
もう少し細かく見ていきたい。まず(1)の「いまだにフルシステムでの稼働ができていない」である。Auroraの場合は1つのノードにXeon Max×2とData Center GPU Max×6が搭載される。以前の推定では、Xeon Max 9480とData Center GPU Max 1550が搭載されているのではないかとしたのだが、実際の詳細を見ると、CPUは52コアのXeon Max 9470が搭載され、動作周波数は2.4GHzになっていた(これは一覧のページには掲載されていないが、TOP500の結果をcsvファイルでダウンロードすると明記されている)。
一方のGPUの方はData Center GPU Maxとだけ記載されている。Data Center MaxはIntel Arkに掲載された128コアの1550以外に、112コアのData Center Max 1350が存在することがわかっている。ノード数を計算すると以下のとおりだ。
| GPUによるノード数の違い | ||||||
|---|---|---|---|---|---|---|
| Data Center GPU Max 1550の場合 | ノードあたり872コア。なので474万2808コア=5439ノード | |||||
| Data Center GPU Max 1350の場合 | ノードあたり776コア。なので474万2808コア=6111.866ノード | |||||
これを見る限りはData Center GPU Max 1550を採用していると考えるのが普通だろう。総ノード数1万624に対して5439ノードなので、51.2%ほどのノードが稼働している計算になる。これは「ざっくり半分」としてしまって問題ないだろう。1350を使った場合は約6111.9ノードというのは58%ほどに相当するため、半分よりはやや多く「6割程度」と表現すべきなのがこの傍証である。
さて、では5439ノードが稼働しているという前提のもとに理論性能を計算してみる。Xeon Max 9470は2.4GHz駆動であると示されているので、こちらはXeon Max 1個あたり1996.8GFlops。不明なのがData Center Max 1550の動作周波数で、連載723回で試算したようにBase 900MHz/Max Dynamic 1.6GHzで演算性能はそれぞれ29491.2GFlops/52428.8GFlopsという数字になる。
AuroraはRpeakが105万9325.75TFlopsとされているので、ノードあたりで言えば194.76TFlopsほど。ここから計算すると、1GHzにやや満たない970MHzで194.70TFlopsほどになる。おおむねこのあたりが動作周波数として設定されていると考えて良さそうだ。
意外に低めという見方もあるが、動作周波数を上げると簡単に消費電力が増えてしまい、さらに発熱も増えるので長時間の連続稼働が厳しくなる。なるべく低めに抑えて長時間動作を可能にするのが狙いだろう。これはFrontierも同じ、という話は連載670回で説明した。
ちなみにここまでの推定が正しいとすると、フルノードで稼働した際のAuroraの理論ピーク性能は2069.11PFlopsになり、一応2EFlops超えを果たす。連載723回では「実質2EFlops」と書いたが、実際にはもっと低めに抑えられていたわけだ。インテルの公約は「今年サービス開始されるAuroraは、『ピークの』倍精度浮動小数点演算性能が2EFlopsを超える」だったので、嘘はついていないことになる。
それにしても、なぜまだ半分しかシステムが稼働できないのか? に関する説明はインテルからもその他の筋からも今のところ流れて来ていない。あるいはハードウェアではなくソフトウェア側の問題なのかもしれない。
フルシステムの消費電力は
39.5MW~42.0MW程度か
次が(2)の「半分のシステムで消費電力が24.6MWに達する」問題。冒頭に引用したCutress博士のPostにもあるが、このシステムではコンピュート・ノードこそ半分しか稼働していないものの、その他(ストレージや管理システム、ネットワーク、水冷システムや空調)などはフル稼働している状態での数字だそうである。それでも24.7MWというのはかなり大きいのだが、だからといってフルシステムで倍になるわけではない、という話である。
連載635回でThomas Sterling教授が示したスライドでは1EFlops以上を60MW以下、という数字だったからこれよりはマシではある。マシではあるのだが、Top 10での性能消費電力比を示したのが下表である。
2018年に初登録されたSummitやSierra、あるいは完全なCPUのみの構成なので性能/消費電力比が低めの富嶽には勝っているものの、昨年11月に稼働したイタリアのLeonardo(今回6位:ちなみにXeon Platinum+NVIDIA A100の構成)にも負けているのは少しいただけない。Frontierと比較すると半分以下でしかない。
加えて言えば、このTop 10で最高効率なのは8位のMareNostrum 5 ACCだが、Xeon Platinum 8460YにNVIDIA H100を組み合わせている構成であり、別にSapphire Rapidsに問題があると考えるのは早計だろう。
ではAuroraがフル稼働するとどの程度の消費電力になるかを考えていこう。Cutress博士はもう少し細かい考察をすでに掲載しており、コンピュート・ノード以外の消費電力が2~4MWだとするとフルシステムでは36MW/EFlops程度とかなり数字が悪いが、これが8~10MWクラスだとすると効率は22MW/EFlopsになり、Frontier(19.0MW/EFlops)に近づくとしている。
ただこの計算、Frontierの方もインフラとコンピュート・ノードの数字を分けて計算する必要があるわけで、同じ算出方法だと仮にインフラを8MWとすれば17.3MW/EFlops程度になることを考えると、まだ差は大きいように思う。
話を戻すと、フルシステムの消費電力を推定するには、そうしたインフラの分をある程度考慮する必要がある。筆者はフルシステムでは2倍よりずっと低い、1.6倍~1.7倍程度と想定している。つまり39.5MW~42.0MW程度だ。性能はノード数に直線的に比例すると仮定すると1143TFlopsほど。効率は27.2~29.0GFlops/W程度に収まると想定している。60MWよりだいぶ低いだけでもマシではないかと思う。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ












