Slingshot-11の中核となる
ネットワークコントローラーのCassini
Slingshot-11を発表したのはKeith D. Underwood氏(Senior Distinguished Technologist, HPC&AI, HPC)だが、Underwood氏の前職はCray Inc.のSenior Principal Engineer、さらにその前はインテルでLead Architect for HPC Interconnectsの職にあり、要するにCrayは一旦HPC向けインターコネクトのハードウェアを捨てたものの、改めて開発を始めることになり、それがHPEに買収された後も続いていたのだと思われる。
ちなみにUnderwood氏がインテルからHPEに移籍したのは2019年5月なので、2012年にCrayから買収したインターコネクトのことはよく知っていたと想像できる。
Slingshot-11が初めて全面的に利用されたのは、Frontierである(中途半端な言い方なのは、Perlmutterも途中からSlingshot-11に切り替わったため)。Frontierの基本的な構造は連載635回、正確なノードの構成は連載644回、動作周波数などのパラメーターは連載670回でそれぞれ説明したが、連載644回のこちらの図で、おのおののInstinct MI250Xから出ている200Gbps NICがSlingshot-11である。
Cassini、というのがコントローラーの名前であるが、そのCassiniの簡単な説明が下の画像だ。システム全体で言えば、Rosettaベースのスイッチが全部で2368台ある計算になる。
RosettaそのものはSlingshot-10の世代から変化がなく、違いはSlingshot-11のみになる。最大の違いは、Slingshot-10のConnectX-5が100Gbps×2だったのに対し、Cassiniは200Gbps×2になったことだ。またHost I/Fも2つになっている。
連載635回でFrontierの内部推定図を書いたが、実際には下図のような構成になっていることがわかった。またHost I/F、つまりInstinct MI250xとの接続は最大25Gbpsまで信号速度を引き上げられるとしている。接続はx16レーンなので、帯域は50GB/秒に達することになる。
ただ物理的に言えば完全に2つの200Gイーサネットを1つのダイで構成したような構造であり、言ってみればConnectX-5を2つ、1つのパッケージに収めたような構成である。
Cassiniは、FrontierとPerlmutter、さらにはAuroraにも採用されることなっている。
接続のされ方はそれぞれ異なり、以下のようになっている。
Cassiniの接続方法 | ||||||
---|---|---|---|---|---|---|
Perlmutter | 1つのEPYCから2つのCassiniがPCIeで直接接続 | |||||
Frontier | 4つのInstinct MI250Xからそれぞれ1つのCassiniがPCIeで直接接続 | |||||
Aurora | 2つのSapphire Rapidsからそれぞれ2つのCassiniがPCIe Switch経由で接続 |
AuroraでPCIeスイッチを挟む理由は、Sapphire RapidsからはPCIe Gen5 x16が出て、これをPCIe スイッチ経由で2×PCIe Gen4 x16に変換するためであろう。またCassiniはPCIeカードとチップでの提供の2種類が用意されるとしている。
ソフトウェアから見たCassiniの特徴は下の画像のとおり。HPCでプロセッサー間通信や同期などに使われるMPIに向けたハードウェアアシスト機構やPGAS(Partitioned Global Address Space:区分化大域アドレス空間)と呼ばれる並列計算向けのアドレスモデルへの対応、さらにはイーサネットとして利用する場合のサポートなどが用意されているとする。
イーサネットとSlingshotの違いは下の画像がわかりやすいが、イーサネットの上にIPなどを載せると、プロトコルのオーバーヘッドが非常に大きくなるのに対し、Slingshotではそのオーバーヘッドがほぼ半減しているのがわかる。
これは特にPayload(要するに実際のデータ)が小さいときに効果的であって、トータルのパケットサイズが小さいほど通信に要する時間も、ルーティングのレイテンシーも小さく抑えられることになる。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ