このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第746回

TOP500の1位に惨敗したスパコンAuroraの真の性能 インテル CPUロードマップ

2023年11月20日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

性能効率が低いのはノード数の多さが原因
最適化もできていない

 それより問題が(3)の「実効性能はたったの585.34PFlopsに過ぎない」である。この性能効率の低さが実はシステム的に最大の問題かもしれない。表の性能効率を見ていただくとわかるが、Auroraより低いのはMareNostrum 5 ACCのみである。もちろん例えばSummitも、現在は74%と結構高い効率を実現しているが、2018年6月に初エントリーした時にはRpeak 187.66PFlops/Rmax 122.30PFlopsで効率は65.2%だったので、この5年間で10%以上効率を改善したわけで、まだ性能の伸びしろがあるという見方もできる。

 ただこのAuroraの55.3%という数字、理論性能が3TFlopsなのに実効性能が1608GFlopsで効率53.6%だったASCI Blue Mountainを思わず彷彿してしまう。TOP500の上位100システム内で見ても85位という低い効率だ。

 ではなにが悪いのか? Xeon Maxか、Data Center Maxか、ネトワークか、という話で言えばまずネットワークはFrontierと同じHPEのSlingshot-11なのでこれは無罪。Xeon Maxというより広義のSapphire Rapidsという意味ではTop 50の中に2/3/8/9/15/19/24/34/41位の9システムがランクインしており、例えば19位のMARENOSTRUM 5 GPPはXeon Platinum 8680+のみの構成だが性能効率はなんと86.48%(Rpeak 46.37PFlops/Rmax 40.10PFlops)なのでSapphire Rapids自身も無罪。

 ではHBMを実装したXeon Maxは? というとこちらはAurora以外に24位のCrossroadsと196位のClementina XXIの3システムだが、CrossroadsがRpeak 40.18PFlops/Rmax 30.03PFlopsで74.76%、Clementina XXIも5.99PFlops/3.88PFlopsで64.7%とそれなりに高めなので、HBMのメモリー容量不足でXeon Maxがボトルネックというわけでもなさそうだ(少なくともそれを回避する方法はちゃんとあるのは間違いない)。

 ではData Center Maxが戦犯か? というと、それも怪しい。今回だとAurora以外に41のDawnとClementina XXIの3システムがData Center Max GPU 1550を実装している。このうちDawnはRpeak 53.85PFlops/Rmax 19.46PFlopsで実に36.1%という凄まじい効率を叩き出しているが、Clementina XXIは上に書いたように64.7%なので、優秀とまでは言わないもののそこまで悪くはない。

 ただClementina XXIはそもそも小規模なシステム(Rpeakが5990.87TFlopsなのでAuroraの176分の1の規模である)ことを考えると、この性能の低さはノード数が多いことに起因しているのでは? という気もしなくはない。

 全体的に言って、Auroraはまだ最適化がかなり足りない気がする。ただこれをどう改善できるのか? というとかなり難しそうにも思える。最大のネックはとにかくノード数が多すぎることだ。これはFrontierも同じで、以前連載670回で触れたように、9248ノードのFrontierの初期構成の効率は65.4%で、一方128ノードのFrontier TDSの効率は83%に達している。

 なにもしなくてもノード数が少なければ、それだけで効率は上げやすい。ちなみにFrontierは今年6月の時点で少し構成を変えており、現在コア数は869万9904個。ノード数は9216個に増えている。にもかかわらずRpeakは1685.65PFlopsから1679.82PFlopsに微減しており、ところがRmaxは1194.0PFlopsと8%ほど向上している。

 消費電力は2万1100KWから2万2703KWにやや増えているが、電力効率は52.23PFlops/MWから52.59PF/MWに多少改善しているあたり、おそらくはノード数の追加に合わせて全体的にさらに動作周波数を下げ、効率を引き上げたものと思われる。

 こうした改良を今後インテルとHPE、アルゴンヌ国立研究所は共同で行なっていく必要がありそうだ。ただそれをやって、さらに全ノードを利用可能にしても、その頃にはEl Capitanが投入されると予想されているわけで、AuroraがTOP500の1位を取るのはかなり難しそうである。

※お詫びと訂正:記事の一部に誤記がございました。訂正してお詫びします。(2023/11/22 16:00)

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン