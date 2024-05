2024年5月12日よりドイツのハンブルグでISC24が開催され、この2日目になる5月13日にTOP500の最新リスト(2024年6月版)が公開された。結論から言えば、引き続きAMDのFrontierが1位を堅持。これで5期連続での1位となった。Auroraは大きく性能を伸ばし、こちらもRmax(実効性能)で1EFlopsを超えたものの、Frontierを超えることはできず、2位に終わった。まずはこのあたりから説明したい。

Auroraの理論性能は1980.01PFlops

ダイナミックに動作周波数を下げて電力効率を上げる

2023年11月に初ランクインした際のAuroraの詳細は連載746回で説明したが、おおよそシステムの半分を稼働させた段階で実効585.34PFlopsほど。消費電力は24.687MWと発表されていた。

コア数は474万2808で、この際の構成は5439ノードと筆者は推定した。ノード構成はXeon Max 9470(52コア)×2+Data Center Max 1550×6という構成。Xeon Max 9470は2.4GHz駆動と発表されており、一方Data Center Max 1550の方は970MHzあたりの駆動速度と推定した。

さて今回であるが、Auroraのページによればコア数は924万6128個で、2023年11月比で1.95倍程になる。逆に言えば2023年11月の稼働状況は51.2%ほどになる計算で、当時の推定は正しかったようだ。

意外なのはRpeak(理論性能)で、ギリギリ2EFlopsに届かない1980.01PFlopsとされている。まずノード数の方からいくと、構成が同じくXeon Max 9470×2+Data Center Max 1550×6だとすればノードあたり872コアであり、総ノード数は1万624となる。

Rpeakから逆算すると、ノードあたりの理論性能は186.37TFlopsほど。これは2023年11月の数字(194.76TFlops)からさらに下がっている。CPUは2.4GHzとこちらも明示されているから、Xeon Max 4970の性能は1個あたり1996.8GFlopsで変わらず。つまり6つのData Center Max 1550あたりの理論性能が30396.1GFlopsとなる。これは動作周波数をさらに引き下げ、928MHzあたりで稼働させているという計算になる。

もっともインテルのプレスリリースによれば、今回の結果は10624ノードのフル構成ではなく、全体の87%にあたる9234ノードを利用しての結果、としている。

これを加味するとノードあたりのRpeakの数値は214.43TFlopsになるのだが、今度はコアの数字が合わない。どうもTOP500に対する報告では、RpeakやTotal Coresなどの数字はフル構成(10624ノード)のもので、Rmaxや消費電力などだけが9234ノードでの数字ということらしい。これが正しいとしても、ずいぶんダイナミックにData Center Max 1550の動作周波数を下げたものである。

理由の1つは消費電力だろう。今回Auroraの消費電力は3万8698.36KWとなった。前回が2万4686.88KWなので、56.8%ほどの増加に留められている。筆者は連載746回でフルシステムのAuroraの消費電力を39.5~42.0MW程度と見積もったが、これよりも若干下回っているあたりは、かなり努力したものと思われる。実際Rpeakに対する電力効率は下表となり2割弱の効率改善が図られている。

AuroraのRpeak(理論性能)と消費電力の関係 Rpeak 消費電力 性能消費電力比 2023年11月 1059.33PFlops 24686.88KW 42.91GFlops/W 2024年6月 1980.01PFlops 38698.36KW 51.17GFlops/W

無理に動作周波数を引き上げると急速に性能消費電力比が悪化するので、より最適なバランスを狙った結果、ということなのだろう。

それは良いのだが、インテルが2023年5月に発表した公約である"Aurora is expected to offer more than 2 exaflops of peak double-precision compute performance when launched this year."(今年立ち上げられるAuroraは、倍精度演算性能が2EFlopsを超えることを予定している)を実現できていないことになる。

おそらくインテルにも、これを実現できない自覚があったのだろう。すでにプレスリリースが落とされている(したがって、上のリンクはウェブアーカイブである)。むしろAuroraの問題は、上がらない効率である。理論性能であるRpeakと実効性能であるRmaxの数字は以下のようになっており、効率は51.1%まで落ちている。

Auroraの性能と電力効率 Rmax Rpeak 効率 2023年11月 585.34PFlops 1059.33PFlops 55.3% 2024年6月 1012.00PFlops 1980.01PFlops 51.1%

もっとも先に書いたようにRpeakは1万624ノードのものである公算が高い。仮にこれが9234ノードだとすると1720.95PFlopsになる計算で、効率は約58.8%になる。51.1%よりはだいぶマシであるが、TOP500の順位は300位前後でしかない。まずはこの電力効率の悪さをなんとかするのが最初の仕事だろう。ちなみにFrontierは70%である。

余談だがプレスリリースではHPCG(High Performance Conjugate Gradient: https://hpcg-benchmark.orgで示される、共役勾配法などを利用したベンチマーク)の結果もランキング3位に入ったとしている。この際にはシステムの39%を利用したとのこと。なのだが、HPCG 500のリストによれば以下のようになっている。

HPCG 500のトップ3 順位 システム HPCG 1位 富岳 16004.50TFlops 2位 Frontier 14054.00TFlops 3位 Aurora 5612.60TFlops

仮に100%のフル構成で稼働させ、これに応じて性能が向上したとしても14391.28TFlopsで、ギリギリFrontierと同等といったところ。性能が本当に向上するのか怪しいあたり、手放しで褒めるにはやや厳しい数値ではある。