2024年5月12日よりドイツのハンブルグでISC24が開催され、この2日目になる5月13日にTOP500の最新リスト(2024年6月版)が公開された。結論から言えば、引き続きAMDのFrontierが1位を堅持。これで5期連続での1位となった。Auroraは大きく性能を伸ばし、こちらもRmax(実効性能)で1EFlopsを超えたものの、Frontierを超えることはできず、2位に終わった。まずはこのあたりから説明したい。
Auroraの理論性能は1980.01PFlops
ダイナミックに動作周波数を下げて電力効率を上げる
2023年11月に初ランクインした際のAuroraの詳細は連載746回で説明したが、おおよそシステムの半分を稼働させた段階で実効585.34PFlopsほど。消費電力は24.687MWと発表されていた。
コア数は474万2808で、この際の構成は5439ノードと筆者は推定した。ノード構成はXeon Max 9470(52コア)×2+Data Center Max 1550×6という構成。Xeon Max 9470は2.4GHz駆動と発表されており、一方Data Center Max 1550の方は970MHzあたりの駆動速度と推定した。
さて今回であるが、Auroraのページによればコア数は924万6128個で、2023年11月比で1.95倍程になる。逆に言えば2023年11月の稼働状況は51.2%ほどになる計算で、当時の推定は正しかったようだ。
TOP500にあるAuroraのページより。Rank 1になる日は来ないような気がしてきた……
意外なのはRpeak(理論性能)で、ギリギリ2EFlopsに届かない1980.01PFlopsとされている。まずノード数の方からいくと、構成が同じくXeon Max 9470×2+Data Center Max 1550×6だとすればノードあたり872コアであり、総ノード数は1万624となる。
Rpeakから逆算すると、ノードあたりの理論性能は186.37TFlopsほど。これは2023年11月の数字(194.76TFlops)からさらに下がっている。CPUは2.4GHzとこちらも明示されているから、Xeon Max 4970の性能は1個あたり1996.8GFlopsで変わらず。つまり6つのData Center Max 1550あたりの理論性能が30396.1GFlopsとなる。これは動作周波数をさらに引き下げ、928MHzあたりで稼働させているという計算になる。
もっともインテルのプレスリリースによれば、今回の結果は10624ノードのフル構成ではなく、全体の87%にあたる9234ノードを利用しての結果、としている。
これを加味するとノードあたりのRpeakの数値は214.43TFlopsになるのだが、今度はコアの数字が合わない。どうもTOP500に対する報告では、RpeakやTotal Coresなどの数字はフル構成(10624ノード)のもので、Rmaxや消費電力などだけが9234ノードでの数字ということらしい。これが正しいとしても、ずいぶんダイナミックにData Center Max 1550の動作周波数を下げたものである。
理由の1つは消費電力だろう。今回Auroraの消費電力は3万8698.36KWとなった。前回が2万4686.88KWなので、56.8%ほどの増加に留められている。筆者は連載746回でフルシステムのAuroraの消費電力を39.5~42.0MW程度と見積もったが、これよりも若干下回っているあたりは、かなり努力したものと思われる。実際Rpeakに対する電力効率は下表となり2割弱の効率改善が図られている。
| AuroraのRpeak(理論性能)と消費電力の関係 | ||||||
|---|---|---|---|---|---|---|
| Rpeak | 消費電力 | 性能消費電力比 | ||||
| 2023年11月 | 1059.33PFlops | 24686.88KW | 42.91GFlops/W | |||
| 2024年6月 | 1980.01PFlops | 38698.36KW | 51.17GFlops/W | |||
無理に動作周波数を引き上げると急速に性能消費電力比が悪化するので、より最適なバランスを狙った結果、ということなのだろう。
それは良いのだが、インテルが2023年5月に発表した公約である"Aurora is expected to offer more than 2 exaflops of peak double-precision compute performance when launched this year."(今年立ち上げられるAuroraは、倍精度演算性能が2EFlopsを超えることを予定している)を実現できていないことになる。
おそらくインテルにも、これを実現できない自覚があったのだろう。すでにプレスリリースが落とされている(したがって、上のリンクはウェブアーカイブである)。むしろAuroraの問題は、上がらない効率である。理論性能であるRpeakと実効性能であるRmaxの数字は以下のようになっており、効率は51.1%まで落ちている。
| Auroraの性能と電力効率 | ||||||
|---|---|---|---|---|---|---|
| Rmax | Rpeak | 効率 | ||||
| 2023年11月 | 585.34PFlops | 1059.33PFlops | 55.3% | |||
| 2024年6月 | 1012.00PFlops | 1980.01PFlops | 51.1% | |||
もっとも先に書いたようにRpeakは1万624ノードのものである公算が高い。仮にこれが9234ノードだとすると1720.95PFlopsになる計算で、効率は約58.8%になる。51.1%よりはだいぶマシであるが、TOP500の順位は300位前後でしかない。まずはこの電力効率の悪さをなんとかするのが最初の仕事だろう。ちなみにFrontierは70%である。
余談だがプレスリリースではHPCG(High Performance Conjugate Gradient: https://hpcg-benchmark.orgで示される、共役勾配法などを利用したベンチマーク)の結果もランキング3位に入ったとしている。この際にはシステムの39%を利用したとのこと。なのだが、HPCG 500のリストによれば以下のようになっている。
| HPCG 500のトップ3 | ||||||
|---|---|---|---|---|---|---|
| 順位 | システム | HPCG | ||||
| 1位 | 富岳 | 16004.50TFlops | ||||
| 2位 | Frontier | 14054.00TFlops | ||||
| 3位 | Aurora | 5612.60TFlops | ||||
仮に100%のフル構成で稼働させ、これに応じて性能が向上したとしても14391.28TFlopsで、ギリギリFrontierと同等といったところ。性能が本当に向上するのか怪しいあたり、手放しで褒めるにはやや厳しい数値ではある。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ












