性能効率が低いのはノード数の多さが原因
最適化もできていない
それより問題が(3)の「実効性能はたったの585.34PFlopsに過ぎない」である。この性能効率の低さが実はシステム的に最大の問題かもしれない。表の性能効率を見ていただくとわかるが、Auroraより低いのはMareNostrum 5 ACCのみである。もちろん例えばSummitも、現在は74%と結構高い効率を実現しているが、2018年6月に初エントリーした時にはRpeak 187.66PFlops/Rmax 122.30PFlopsで効率は65.2%だったので、この5年間で10%以上効率を改善したわけで、まだ性能の伸びしろがあるという見方もできる。
ただこのAuroraの55.3%という数字、理論性能が3TFlopsなのに実効性能が1608GFlopsで効率53.6%だったASCI Blue Mountainを思わず彷彿してしまう。TOP500の上位100システム内で見ても85位という低い効率だ。
ではなにが悪いのか? Xeon Maxか、Data Center Maxか、ネトワークか、という話で言えばまずネットワークはFrontierと同じHPEのSlingshot-11なのでこれは無罪。Xeon Maxというより広義のSapphire Rapidsという意味ではTop 50の中に2/3/8/9/15/19/24/34/41位の9システムがランクインしており、例えば19位のMARENOSTRUM 5 GPPはXeon Platinum 8680+のみの構成だが性能効率はなんと86.48%(Rpeak 46.37PFlops/Rmax 40.10PFlops)なのでSapphire Rapids自身も無罪。
ではHBMを実装したXeon Maxは? というとこちらはAurora以外に24位のCrossroadsと196位のClementina XXIの3システムだが、CrossroadsがRpeak 40.18PFlops/Rmax 30.03PFlopsで74.76%、Clementina XXIも5.99PFlops/3.88PFlopsで64.7%とそれなりに高めなので、HBMのメモリー容量不足でXeon Maxがボトルネックというわけでもなさそうだ(少なくともそれを回避する方法はちゃんとあるのは間違いない)。
ではData Center Maxが戦犯か? というと、それも怪しい。今回だとAurora以外に41のDawnとClementina XXIの3システムがData Center Max GPU 1550を実装している。このうちDawnはRpeak 53.85PFlops/Rmax 19.46PFlopsで実に36.1%という凄まじい効率を叩き出しているが、Clementina XXIは上に書いたように64.7%なので、優秀とまでは言わないもののそこまで悪くはない。
ただClementina XXIはそもそも小規模なシステム(Rpeakが5990.87TFlopsなのでAuroraの176分の1の規模である)ことを考えると、この性能の低さはノード数が多いことに起因しているのでは? という気もしなくはない。
全体的に言って、Auroraはまだ最適化がかなり足りない気がする。ただこれをどう改善できるのか? というとかなり難しそうにも思える。最大のネックはとにかくノード数が多すぎることだ。これはFrontierも同じで、以前連載670回で触れたように、9248ノードのFrontierの初期構成の効率は65.4%で、一方128ノードのFrontier TDSの効率は83%に達している。
なにもしなくてもノード数が少なければ、それだけで効率は上げやすい。ちなみにFrontierは今年6月の時点で少し構成を変えており、現在コア数は869万9904個。ノード数は9216個に増えている。にもかかわらずRpeakは1685.65PFlopsから1679.82PFlopsに微減しており、ところがRmaxは1194.0PFlopsと8%ほど向上している。
消費電力は2万1100KWから2万2703KWにやや増えているが、電力効率は52.23PFlops/MWから52.59PF/MWに多少改善しているあたり、おそらくはノード数の追加に合わせて全体的にさらに動作周波数を下げ、効率を引き上げたものと思われる。
こうした改良を今後インテルとHPE、アルゴンヌ国立研究所は共同で行なっていく必要がありそうだ。ただそれをやって、さらに全ノードを利用可能にしても、その頃にはEl Capitanが投入されると予想されているわけで、AuroraがTOP500の1位を取るのはかなり難しそうである。
※お詫びと訂正:記事の一部に誤記がございました。訂正してお詫びします。(2023/11/22 16:00)
この連載の記事
-
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ