システムの稼働率は51.2%ほど
稼働率100%での性能は2069.11PFlops
もう少し細かく見ていきたい。まず(1)の「いまだにフルシステムでの稼働ができていない」である。Auroraの場合は1つのノードにXeon Max×2とData Center GPU Max×6が搭載される。以前の推定では、Xeon Max 9480とData Center GPU Max 1550が搭載されているのではないかとしたのだが、実際の詳細を見ると、CPUは52コアのXeon Max 9470が搭載され、動作周波数は2.4GHzになっていた(これは一覧のページには掲載されていないが、TOP500の結果をcsvファイルでダウンロードすると明記されている)。
一方のGPUの方はData Center GPU Maxとだけ記載されている。Data Center MaxはIntel Arkに掲載された128コアの1550以外に、112コアのData Center Max 1350が存在することがわかっている。ノード数を計算すると以下のとおりだ。
GPUによるノード数の違い | ||||||
---|---|---|---|---|---|---|
Data Center GPU Max 1550の場合 | ノードあたり872コア。なので474万2808コア=5439ノード | |||||
Data Center GPU Max 1350の場合 | ノードあたり776コア。なので474万2808コア=6111.866ノード |
これを見る限りはData Center GPU Max 1550を採用していると考えるのが普通だろう。総ノード数1万624に対して5439ノードなので、51.2%ほどのノードが稼働している計算になる。これは「ざっくり半分」としてしまって問題ないだろう。1350を使った場合は約6111.9ノードというのは58%ほどに相当するため、半分よりはやや多く「6割程度」と表現すべきなのがこの傍証である。
さて、では5439ノードが稼働しているという前提のもとに理論性能を計算してみる。Xeon Max 9470は2.4GHz駆動であると示されているので、こちらはXeon Max 1個あたり1996.8GFlops。不明なのがData Center Max 1550の動作周波数で、連載723回で試算したようにBase 900MHz/Max Dynamic 1.6GHzで演算性能はそれぞれ29491.2GFlops/52428.8GFlopsという数字になる。
AuroraはRpeakが105万9325.75TFlopsとされているので、ノードあたりで言えば194.76TFlopsほど。ここから計算すると、1GHzにやや満たない970MHzで194.70TFlopsほどになる。おおむねこのあたりが動作周波数として設定されていると考えて良さそうだ。
意外に低めという見方もあるが、動作周波数を上げると簡単に消費電力が増えてしまい、さらに発熱も増えるので長時間の連続稼働が厳しくなる。なるべく低めに抑えて長時間動作を可能にするのが狙いだろう。これはFrontierも同じ、という話は連載670回で説明した。
ちなみにここまでの推定が正しいとすると、フルノードで稼働した際のAuroraの理論ピーク性能は2069.11PFlopsになり、一応2EFlops超えを果たす。連載723回では「実質2EFlops」と書いたが、実際にはもっと低めに抑えられていたわけだ。インテルの公約は「今年サービス開始されるAuroraは、『ピークの』倍精度浮動小数点演算性能が2EFlopsを超える」だったので、嘘はついていないことになる。
それにしても、なぜまだ半分しかシステムが稼働できないのか? に関する説明はインテルからもその他の筋からも今のところ流れて来ていない。あるいはハードウェアではなくソフトウェア側の問題なのかもしれない。
フルシステムの消費電力は
39.5MW~42.0MW程度か
次が(2)の「半分のシステムで消費電力が24.6MWに達する」問題。冒頭に引用したCutress博士のPostにもあるが、このシステムではコンピュート・ノードこそ半分しか稼働していないものの、その他(ストレージや管理システム、ネットワーク、水冷システムや空調)などはフル稼働している状態での数字だそうである。それでも24.7MWというのはかなり大きいのだが、だからといってフルシステムで倍になるわけではない、という話である。
連載635回でThomas Sterling教授が示したスライドでは1EFlops以上を60MW以下、という数字だったからこれよりはマシではある。マシではあるのだが、Top 10での性能消費電力比を示したのが下表である。
2018年に初登録されたSummitやSierra、あるいは完全なCPUのみの構成なので性能/消費電力比が低めの富嶽には勝っているものの、昨年11月に稼働したイタリアのLeonardo(今回6位:ちなみにXeon Platinum+NVIDIA A100の構成)にも負けているのは少しいただけない。Frontierと比較すると半分以下でしかない。
加えて言えば、このTop 10で最高効率なのは8位のMareNostrum 5 ACCだが、Xeon Platinum 8460YにNVIDIA H100を組み合わせている構成であり、別にSapphire Rapidsに問題があると考えるのは早計だろう。
ではAuroraがフル稼働するとどの程度の消費電力になるかを考えていこう。Cutress博士はもう少し細かい考察をすでに掲載しており、コンピュート・ノード以外の消費電力が2~4MWだとするとフルシステムでは36MW/EFlops程度とかなり数字が悪いが、これが8~10MWクラスだとすると効率は22MW/EFlopsになり、Frontier(19.0MW/EFlops)に近づくとしている。
ただこの計算、Frontierの方もインフラとコンピュート・ノードの数字を分けて計算する必要があるわけで、同じ算出方法だと仮にインフラを8MWとすれば17.3MW/EFlops程度になることを考えると、まだ差は大きいように思う。
話を戻すと、フルシステムの消費電力を推定するには、そうしたインフラの分をある程度考慮する必要がある。筆者はフルシステムでは2倍よりずっと低い、1.6倍~1.7倍程度と想定している。つまり39.5MW~42.0MW程度だ。性能はノード数に直線的に比例すると仮定すると1143TFlopsほど。効率は27.2~29.0GFlops/W程度に収まると想定している。60MWよりだいぶ低いだけでもマシではないかと思う。
この連載の記事
-
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ - この連載の一覧へ