2024年5月12日よりドイツのハンブルグでISC24が開催され、この2日目になる5月13日にTOP500の最新リスト(2024年6月版)が公開された。結論から言えば、引き続きAMDのFrontierが1位を堅持。これで5期連続での1位となった。Auroraは大きく性能を伸ばし、こちらもRmax(実効性能)で1EFlopsを超えたものの、Frontierを超えることはできず、2位に終わった。まずはこのあたりから説明したい。
Auroraの理論性能は1980.01PFlops
ダイナミックに動作周波数を下げて電力効率を上げる
2023年11月に初ランクインした際のAuroraの詳細は連載746回で説明したが、おおよそシステムの半分を稼働させた段階で実効585.34PFlopsほど。消費電力は24.687MWと発表されていた。
コア数は474万2808で、この際の構成は5439ノードと筆者は推定した。ノード構成はXeon Max 9470(52コア)×2+Data Center Max 1550×6という構成。Xeon Max 9470は2.4GHz駆動と発表されており、一方Data Center Max 1550の方は970MHzあたりの駆動速度と推定した。
さて今回であるが、Auroraのページによればコア数は924万6128個で、2023年11月比で1.95倍程になる。逆に言えば2023年11月の稼働状況は51.2%ほどになる計算で、当時の推定は正しかったようだ。
意外なのはRpeak(理論性能)で、ギリギリ2EFlopsに届かない1980.01PFlopsとされている。まずノード数の方からいくと、構成が同じくXeon Max 9470×2+Data Center Max 1550×6だとすればノードあたり872コアであり、総ノード数は1万624となる。
Rpeakから逆算すると、ノードあたりの理論性能は186.37TFlopsほど。これは2023年11月の数字(194.76TFlops)からさらに下がっている。CPUは2.4GHzとこちらも明示されているから、Xeon Max 4970の性能は1個あたり1996.8GFlopsで変わらず。つまり6つのData Center Max 1550あたりの理論性能が30396.1GFlopsとなる。これは動作周波数をさらに引き下げ、928MHzあたりで稼働させているという計算になる。
もっともインテルのプレスリリースによれば、今回の結果は10624ノードのフル構成ではなく、全体の87%にあたる9234ノードを利用しての結果、としている。
これを加味するとノードあたりのRpeakの数値は214.43TFlopsになるのだが、今度はコアの数字が合わない。どうもTOP500に対する報告では、RpeakやTotal Coresなどの数字はフル構成(10624ノード)のもので、Rmaxや消費電力などだけが9234ノードでの数字ということらしい。これが正しいとしても、ずいぶんダイナミックにData Center Max 1550の動作周波数を下げたものである。
理由の1つは消費電力だろう。今回Auroraの消費電力は3万8698.36KWとなった。前回が2万4686.88KWなので、56.8%ほどの増加に留められている。筆者は連載746回でフルシステムのAuroraの消費電力を39.5~42.0MW程度と見積もったが、これよりも若干下回っているあたりは、かなり努力したものと思われる。実際Rpeakに対する電力効率は下表となり2割弱の効率改善が図られている。
AuroraのRpeak(理論性能)と消費電力の関係 | ||||||
---|---|---|---|---|---|---|
Rpeak | 消費電力 | 性能消費電力比 | ||||
2023年11月 | 1059.33PFlops | 24686.88KW | 42.91GFlops/W | |||
2024年6月 | 1980.01PFlops | 38698.36KW | 51.17GFlops/W |
無理に動作周波数を引き上げると急速に性能消費電力比が悪化するので、より最適なバランスを狙った結果、ということなのだろう。
それは良いのだが、インテルが2023年5月に発表した公約である"Aurora is expected to offer more than 2 exaflops of peak double-precision compute performance when launched this year."(今年立ち上げられるAuroraは、倍精度演算性能が2EFlopsを超えることを予定している)を実現できていないことになる。
おそらくインテルにも、これを実現できない自覚があったのだろう。すでにプレスリリースが落とされている(したがって、上のリンクはウェブアーカイブである)。むしろAuroraの問題は、上がらない効率である。理論性能であるRpeakと実効性能であるRmaxの数字は以下のようになっており、効率は51.1%まで落ちている。
Auroraの性能と電力効率 | ||||||
---|---|---|---|---|---|---|
Rmax | Rpeak | 効率 | ||||
2023年11月 | 585.34PFlops | 1059.33PFlops | 55.3% | |||
2024年6月 | 1012.00PFlops | 1980.01PFlops | 51.1% |
もっとも先に書いたようにRpeakは1万624ノードのものである公算が高い。仮にこれが9234ノードだとすると1720.95PFlopsになる計算で、効率は約58.8%になる。51.1%よりはだいぶマシであるが、TOP500の順位は300位前後でしかない。まずはこの電力効率の悪さをなんとかするのが最初の仕事だろう。ちなみにFrontierは70%である。
余談だがプレスリリースではHPCG(High Performance Conjugate Gradient: https://hpcg-benchmark.orgで示される、共役勾配法などを利用したベンチマーク)の結果もランキング3位に入ったとしている。この際にはシステムの39%を利用したとのこと。なのだが、HPCG 500のリストによれば以下のようになっている。
HPCG 500のトップ3 | ||||||
---|---|---|---|---|---|---|
順位 | システム | HPCG | ||||
1位 | 富岳 | 16004.50TFlops | ||||
2位 | Frontier | 14054.00TFlops | ||||
3位 | Aurora | 5612.60TFlops |
仮に100%のフル構成で稼働させ、これに応じて性能が向上したとしても14391.28TFlopsで、ギリギリFrontierと同等といったところ。性能が本当に向上するのか怪しいあたり、手放しで褒めるにはやや厳しい数値ではある。
この連載の記事
-
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ