性能効率が低いのはノード数の多さが原因
最適化もできていない
それより問題が(3)の「実効性能はたったの585.34PFlopsに過ぎない」である。この性能効率の低さが実はシステム的に最大の問題かもしれない。表の性能効率を見ていただくとわかるが、Auroraより低いのはMareNostrum 5 ACCのみである。もちろん例えばSummitも、現在は74%と結構高い効率を実現しているが、2018年6月に初エントリーした時にはRpeak 187.66PFlops/Rmax 122.30PFlopsで効率は65.2%だったので、この5年間で10%以上効率を改善したわけで、まだ性能の伸びしろがあるという見方もできる。
ただこのAuroraの55.3%という数字、理論性能が3TFlopsなのに実効性能が1608GFlopsで効率53.6%だったASCI Blue Mountainを思わず彷彿してしまう。TOP500の上位100システム内で見ても85位という低い効率だ。
ではなにが悪いのか? Xeon Maxか、Data Center Maxか、ネトワークか、という話で言えばまずネットワークはFrontierと同じHPEのSlingshot-11なのでこれは無罪。Xeon Maxというより広義のSapphire Rapidsという意味ではTop 50の中に2/3/8/9/15/19/24/34/41位の9システムがランクインしており、例えば19位のMARENOSTRUM 5 GPPはXeon Platinum 8680+のみの構成だが性能効率はなんと86.48%(Rpeak 46.37PFlops/Rmax 40.10PFlops)なのでSapphire Rapids自身も無罪。
ではHBMを実装したXeon Maxは? というとこちらはAurora以外に24位のCrossroadsと196位のClementina XXIの3システムだが、CrossroadsがRpeak 40.18PFlops/Rmax 30.03PFlopsで74.76%、Clementina XXIも5.99PFlops/3.88PFlopsで64.7%とそれなりに高めなので、HBMのメモリー容量不足でXeon Maxがボトルネックというわけでもなさそうだ(少なくともそれを回避する方法はちゃんとあるのは間違いない)。
ではData Center Maxが戦犯か? というと、それも怪しい。今回だとAurora以外に41のDawnとClementina XXIの3システムがData Center Max GPU 1550を実装している。このうちDawnはRpeak 53.85PFlops/Rmax 19.46PFlopsで実に36.1%という凄まじい効率を叩き出しているが、Clementina XXIは上に書いたように64.7%なので、優秀とまでは言わないもののそこまで悪くはない。
ただClementina XXIはそもそも小規模なシステム(Rpeakが5990.87TFlopsなのでAuroraの176分の1の規模である)ことを考えると、この性能の低さはノード数が多いことに起因しているのでは? という気もしなくはない。
全体的に言って、Auroraはまだ最適化がかなり足りない気がする。ただこれをどう改善できるのか? というとかなり難しそうにも思える。最大のネックはとにかくノード数が多すぎることだ。これはFrontierも同じで、以前連載670回で触れたように、9248ノードのFrontierの初期構成の効率は65.4%で、一方128ノードのFrontier TDSの効率は83%に達している。
なにもしなくてもノード数が少なければ、それだけで効率は上げやすい。ちなみにFrontierは今年6月の時点で少し構成を変えており、現在コア数は869万9904個。ノード数は9216個に増えている。にもかかわらずRpeakは1685.65PFlopsから1679.82PFlopsに微減しており、ところがRmaxは1194.0PFlopsと8%ほど向上している。
消費電力は2万1100KWから2万2703KWにやや増えているが、電力効率は52.23PFlops/MWから52.59PF/MWに多少改善しているあたり、おそらくはノード数の追加に合わせて全体的にさらに動作周波数を下げ、効率を引き上げたものと思われる。
こうした改良を今後インテルとHPE、アルゴンヌ国立研究所は共同で行なっていく必要がありそうだ。ただそれをやって、さらに全ノードを利用可能にしても、その頃にはEl Capitanが投入されると予想されているわけで、AuroraがTOP500の1位を取るのはかなり難しそうである。
※お詫びと訂正:記事の一部に誤記がございました。訂正してお詫びします。(2023/11/22 16:00)

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











