ロードマップでわかる!当世プロセッサー事情 第617回
AMDとNVIDIAがPerlmutterを当初のタイムライン通りに納入 スーパーコンピューターの系譜
2021年05月31日 12時00分更新
スーパーコンピューターの系譜
Perlmutterが稼働開始
ということで今週の本題は、米国立エネルギー研究科学計算センター(NERSC)のPerlmutterである。Perlmutterは連載510回でまず概略を、その後連載597回や連載608回で断片的に情報を紹介したが、こちらの運用が始まったという発表が米国時間の5月27日にあった。すでにPerlmutterのサイトも公開されている。
今回導入されたのはフェーズ1と呼ばれるCPUとGPU混載のノードである。もともとPerlmutterではCPU Only NodeとCPU+GPU Nodeの2種類があるという話は以前紹介した通りであるが、フェーズ1ではこのCPU+GPU Nodeの設置を行なう。フェーズ2は今年後半に運用開始になる予定で、こちらはCPU Only Nodeの設置となる。
ちなみに構成であるがフェーズ1では以下が設置される。
| フェーズ1で設置されるノード数 | ||||||
|---|---|---|---|---|---|---|
| GPU-accelerated compute node | 1536ノード/12キャビネット | |||||
| ログインノード | 15ノード | |||||
GPU-accelerated compute nodeはAMD EPYC 7763+NVIDIA A100×4という構成で、CPUとGPUはPCI Express Gen4で、GPU同士はNVLink 3で、外部へのNICはPCI Express Gen3で接続という構成である。メモリー容量は1ノードあたり256GBとされている。
GPU-accelerated compute nodeの構成。Workflow NodeやHigh-memory Nodeの詳細は不明。CPU-only nodesにいろいろバリエーションを追加するのかもしれない
このGPU-accelerated compute nodeが2つ、1本のCompute Bladeというシャーシに収まる格好になる。1本のキャビネットは8つのセグメントに分割され、各々のセグメントには8枚のCompute Bladeと4枚のSwitch Blade(これはネットワークスイッチ)が搭載されるので、合計するとキャビネットあたり64 Compute Blade、128ノードのGPU-accelerated compute nodeが内蔵される格好になる。
フェーズ1はこれを12キャビネット並べるので、トータルすると1536ノードとなり、AMD EPYC 7763が1536個とNVIDIA A100が6144枚装着されることになる。
もっともプレスリリースを確認すると、AMDの方は「1536ノードにおのおのEPYC 7763が1つずつインストールされる」という表現でこれはいいのだが、NVIDIAの方を見ると、“6159 NVIDIA A100 Tensor Core GPUs in Perlmutter”と書いてあり、差の15枚はどこから出てきた? という謎な結果になっている。
おそらくは冗長ノードがいくつか用意されているほか、交換用にも何枚か提供された結果が15枚というあたりなのではないかとは思うが、これに関する詳細は明らかになっていない。
これと別にログインノードが15ノード用意されるが、こちらは1ノードあたり2つのEPYC 7742が搭載され、512GBメモリーと960GBのローカルストレージが搭載されている。こちらは名前の通り、利用者がログインして作業するマシンで、このログインノードからPerlmutterにジョブを投げるイメージになるかと思う。
これに続いて導入されるのがフェーズ2であるが、こちらは同じ米国立エネルギー研究科学計算センターのCoriを置き換えるシステムである。
以前も書いたが、CoriはXeon Phiをベースとしたシステムで、HaswellベースのXeon E5-2698 v3ベースが14キャビネット/2388ノードと、Knight LandingベースのXeon Phi 7250ベースが54キャビネット/9688ノード用意され、合計で32.3PFlopsの演算性能(ピーク値)を発揮するというものだった。
ところがXeon Phiの製品ラインそのものの廃止にともない、ここで動いていたアプリケーションを通常のx64ベースで稼働させる必要が出てきたため、これをフェーズ2でカバーする形となる。
フェーズ2はノードあたり2つのGen 3 EPYC(型番は不明)に512GBメモリーを組み合わせる構成で、フェーズ1と同じく1536ノード(=EPYCが3072個)となっている。もしフェーズ2も同じくAMD EPYC 7763で構成されるとすると、FP64での理論上のピーク性能は7.8PFlopsほどになる計算である。
フェーズ1の方は、FP64はCPUが3.9PFlops、GPUが59.9PFlopsで、合計60PFlops超ということで、Coriのほぼ2倍といったところ。ただXeon Phiはピーク性能を出すのが非常に困難な、ピーキーなカードだったことを考えると、実効性能で言えばアスキーの記事で触れられていた「現在NERSCで利用可能な計算能力の4倍を達成すると期待」されるのも妥当な気がする。
ちなみにフェーズ2が完成すると、合計の演算性能は71.6PFlops(FP64)で、仮に演算効率が100%だとしても昨年11月のTOP500のリストで言えば37位くらい、効率が80%程度だとすれば50~51位あたりになる計算で、絶対性能という点では大きなインパクトはない。
ただAMDのMilanベースのEPYCや、NVIDIAのA100を搭載した初のHPCマシンという意味では大きなマイルストーンである。もっと言えば、AMDとNVIDIAはこれを当初のタイムライン通りに納入したということが非常に大きなポイントである。
AMDはこれに続きオークリッジ国立研究所にFrontierの納入をやはり今年からスタートするし、来年にはEl Capitanへの納入もスタートする。
対するインテルは、同じく今年中に納入を始める予定だったAuroraが予想通り遅れており、それもあって「Ponte VecchioをNVIDIAのGPUに変えた方がいいんじゃないか」というような記事が昨年登場していたが、確かにNVIDIAの好調ぶりを見ているとそれもうなずける。
ただ、GPUだけでなくCPUのSapphire Rapidsも本当に今年中にリリースされるか疑わしいという状況では、GPUだけ交換しても意味がないという話もある。このあたり、年末あたりにはもう少しはっきり状況が見えてくるだろう。
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第971回
PC
GTC 2026激震! 突如現れたGroq 3と消えたRubin CPX。NVIDIAの推論戦略を激変させたTSMCの逼迫とメモリー高騰 -
第870回
PC
スマホCPUの王者が挑む「脱・裏方」宣言。Arm初の自社販売チップAGI CPUは世界をどう変えるか? -
第869回
PC
半導体プロセスの新たな覇権! インテルのDNNプロセッサーはAMDやMetaを凌駕する配線密度と演算密度 -
第868回
PC
物理IPには真似できない4%の差はどこから生まれるか? RTL実装が解き放つDimensity 9500の真価 -
第867回
PC
計算が速いだけじゃない! 自分で電圧を操って実力を出し切る賢すぎるAIチップ「Spyre」がAI処理を25%も速くする -
第866回
PC
NVIDIAを射程に捉えた韓国の雄rebellionsの怪物AIチップ「REBEL-Quad」 -
第865回
PC
1400WのモンスターGPU「Instinct MI350」の正体、AMDが選んだ効率を捨ててでも1.9倍の性能向上を獲る戦略 -
第864回
PC
なぜAMDはチップレットで勝利したのか? 2万ドルのウェハーから逆算する経済的合理性 -
第863回
PC
銅配線はなぜ限界なのか? ルテニウムへの移行で変わる半導体製造の常識と課題 -
第862回
PC
「ビル100階建て相当」の超難工事! DRAM微細化が限界を超え前人未到の垂直化へ突入 -
第861回
PC
INT4量子化+高度な電圧管理で消費電力60%削減かつ90%性能アップ! Snapdragon X2 Eliteの最先端技術を解説 - この連載の一覧へ












