ロードマップでわかる!当世プロセッサー事情 第799回
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす
2024年11月25日 12時00分更新
11月17日からアトランタでSC24が開催され、11月18日にはTOP500の2024年11月版が公開された。予想通りではあるが、AMDとHPがローレンス・リバモア国立研究所に納入したEl Capitanが大幅に性能を更新、堂々1位を獲得した。以下10位までは下の画像のとおり。このEl Capitanの構成をもう少し見てみたい。
AMDとHPが共同開発したスパコンEl Capitan
El Capitanは、計算部はInstinct MI300Aのみで構成されるシステムである。コア数は1103万9616個で、うちAccelerator/Co-Processorは998万8224個とされる。つまりCPUコアは105万1392個であり、Instinct MI300Aは1個あたり24コアのZen 4が搭載されるため、Instinct MI300Aの数は4万3808個という計算になる。
逆にAccelerator/Co-Processorの数を4万3808で割ると、Instinct MI300A 1個あたり228コアという計算になる。これは連載751回で説明した個数と同じである。
さてEl Capitanのノード構成だが、2023年8月23日付の"El Capitan: The First NNSA Exascale System"というスライドを見ると、連載726回で紹介したように、4つのGPU+1つのCPUから構成されるという説明があるのだが、このRabbit-4Uは"Deployed in LLNL EAS3s"(すでにEAS3sに展開済である)という記載がみられる。
EAS3sとはなにか? を調べたら、ECP(Exascale Computing Project)のインタビュー記事の中に「我々のEAS3(第3世代のアーリーアクセスシステム)は、Frontierと非常に類似したシステムです。MI250X GPUとTrento CPUを搭載しており、(ソフトウェアから見ると)ほぼ同一のシステムです。各ノードにSSDは搭載されていませんが、代わりにRabbitsを導入し、El Capitanでの使用に備えています。AMD GPUの使用準備は、当社のチームにとって非常に容易な作業でした。その結果、El Capitanで(ソフトウェアが)すぐ利用可能になります」という記述があった。
つまりこのGPU×4+CPUの構成はあくまでもEAS3sのものであり、本番のEl CapitanはこれをMI300A×4で置き換えている可能性が非常に高い。具体的には下の画像のとおりであろう。つまり4つのInstinct MI300Aで1つのノードを構成。2ノードで1枚のCompute Bladeを構成する格好だ。だとするとブレード1枚で8個のMI300Aが搭載されるので、ノード数は10952、ブレード数は5476枚となる。
連載726回の推定ではRmaxが2EFlops程度を推定して4000ノード/2000ブレードという数字を出したが、実際にはこれを超える2.7EFlopsの構成だったこともあり、大幅にノード数が増えることになってしまった。
次に動作周波数について。Instinct MI300Aは定格ではCPUが3.7GHz駆動、GPUが2.1GHz駆動となっており、FP64での性能はGPUが61.3TFlops、CPUが1420.8GFlopsとなる(AVX512で積和演算を行なうとすると、1サイクルあたり16Flopsになることから計算)。合算すると62.7208TFlopsである。
丸めて62.72TFlopsとして、これが4万3808個なのでトータルで2747.638PFlopsという計算になり、これはEl CapitanにRpeak(理論ピーク性能)として登録された2746.380PFlopsにかなり近い。つまり最大動作周波数はほぼ定格のままで運用されているものと考えられる。
消費電力についても検証しよう。Instinct MI300AのTDPは液冷で760W、空・液冷で550Wということになっている。仮に液冷での数字である760Wを採用すると、ノードあたり3040W。ブレード1枚だと6080W。実際にはイーサネットのPHYや、その他管理用の周辺回路などもあるだろうから、とりあえず6100Wとしておく。
これが5476枚だと、それだけで3万3403.6KWになる。システム全体だと5万KWを超えかねない数字であるが、実際に登録された数字は2万9581KWである。TDPを550Wとするとノードあたり2200W、ブレード1枚で4400W。少し上乗せして4500Wとして、5476ブレードで2万4642KW。ストレージやネットワークスイッチ、冷却装置の分まで加味すると、これでもかなり厳しい。
したがって、実際にはInstinct MI300A 1つあたり450~480W程度まで落とすように調整して運用している、と考えるのが妥当かと思われる。定格動作周波数を下げるのではなく、消費電力枠をこの450~480Wに設定して、動的に動作周波数の制限をしているのだろう。
効率の方はRpeak 2746.38PFlopsに対し、Rmax 1742.00PFlopsで63.4%ほど。ただ2位になったFlontierの方もRpeak 2055.72PFlops/Rmax 1353.00PFlopsで65.8%なので、初回の成績としては悪くないという見方ができるだろう。

この連載の記事
-
第858回
デジタル
CES 2026で実機を披露! AMDが発表した最先端AIラックHeliosの最新仕様を独自解説 -
第857回
PC
FinFETを超えるGAA構造の威力! Samsung推進のMBCFETが実現する高性能チップの未来 -
第856回
PC
Rubin Ultra搭載Kyber Rackが放つ100PFlops級ハイスペック性能と3600GB/s超NVLink接続の秘密を解析 -
第855回
PC
配線太さがジュース缶並み!? 800V DC供給で電力損失7~10%削減を可能にする次世代データセンターラック技術 -
第854回
PC
巨大ラジエーターで熱管理! NVIDIA GB200/300搭載NVL72ラックがもたらす次世代AIインフラの全貌 -
第853回
PC
7つのカメラと高度な6DOF・Depthセンサー搭載、Meta Orionが切り開く没入感抜群の新ARスマートグラス技術 -
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 - この連載の一覧へ















