Slingshot-11の中核となる
ネットワークコントローラーのCassini
Slingshot-11を発表したのはKeith D. Underwood氏(Senior Distinguished Technologist, HPC&AI, HPC)だが、Underwood氏の前職はCray Inc.のSenior Principal Engineer、さらにその前はインテルでLead Architect for HPC Interconnectsの職にあり、要するにCrayは一旦HPC向けインターコネクトのハードウェアを捨てたものの、改めて開発を始めることになり、それがHPEに買収された後も続いていたのだと思われる。
ちなみにUnderwood氏がインテルからHPEに移籍したのは2019年5月なので、2012年にCrayから買収したインターコネクトのことはよく知っていたと想像できる。
Slingshot-11が初めて全面的に利用されたのは、Frontierである(中途半端な言い方なのは、Perlmutterも途中からSlingshot-11に切り替わったため)。Frontierの基本的な構造は連載635回、正確なノードの構成は連載644回、動作周波数などのパラメーターは連載670回でそれぞれ説明したが、連載644回のこちらの図で、おのおののInstinct MI250Xから出ている200Gbps NICがSlingshot-11である。
Cassini、というのがコントローラーの名前であるが、そのCassiniの簡単な説明が下の画像だ。システム全体で言えば、Rosettaベースのスイッチが全部で2368台ある計算になる。

Cassiniの概要。74グループということは、1グループにはおよそ127ノード強が含まれることになる。おそらく基本は1グループ128ノードで、1グループのみ64ノードということか? おのおののノードが32 Rosettaスイッチというあたりからもこれが想像できる
RosettaそのものはSlingshot-10の世代から変化がなく、違いはSlingshot-11のみになる。最大の違いは、Slingshot-10のConnectX-5が100Gbps×2だったのに対し、Cassiniは200Gbps×2になったことだ。またHost I/Fも2つになっている。
連載635回でFrontierの内部推定図を書いたが、実際には下図のような構成になっていることがわかった。またHost I/F、つまりInstinct MI250xとの接続は最大25Gbpsまで信号速度を引き上げられるとしている。接続はx16レーンなので、帯域は50GB/秒に達することになる。
ただ物理的に言えば完全に2つの200Gイーサネットを1つのダイで構成したような構造であり、言ってみればConnectX-5を2つ、1つのパッケージに収めたような構成である。

イーサネットでありながら、TSMCの16nmで132mm2という巨大なダイである。もっとも2つ分と考えれば1個66mm2なので、極端に大きいとも言いにくい。30Wの消費電力も、トータルで400Gbpsと考えると、妥当な数字に思える
Cassiniは、FrontierとPerlmutter、さらにはAuroraにも採用されることなっている。
接続のされ方はそれぞれ異なり、以下のようになっている。
Cassiniの接続方法 | ||||||
---|---|---|---|---|---|---|
Perlmutter | 1つのEPYCから2つのCassiniがPCIeで直接接続 | |||||
Frontier | 4つのInstinct MI250Xからそれぞれ1つのCassiniがPCIeで直接接続 | |||||
Aurora | 2つのSapphire Rapidsからそれぞれ2つのCassiniがPCIe Switch経由で接続 |
AuroraでPCIeスイッチを挟む理由は、Sapphire RapidsからはPCIe Gen5 x16が出て、これをPCIe スイッチ経由で2×PCIe Gen4 x16に変換するためであろう。またCassiniはPCIeカードとチップでの提供の2種類が用意されるとしている。
ソフトウェアから見たCassiniの特徴は下の画像のとおり。HPCでプロセッサー間通信や同期などに使われるMPIに向けたハードウェアアシスト機構やPGAS(Partitioned Global Address Space:区分化大域アドレス空間)と呼ばれる並列計算向けのアドレスモデルへの対応、さらにはイーサネットとして利用する場合のサポートなどが用意されているとする。
イーサネットとSlingshotの違いは下の画像がわかりやすいが、イーサネットの上にIPなどを載せると、プロトコルのオーバーヘッドが非常に大きくなるのに対し、Slingshotではそのオーバーヘッドがほぼ半減しているのがわかる。
これは特にPayload(要するに実際のデータ)が小さいときに効果的であって、トータルのパケットサイズが小さいほど通信に要する時間も、ルーティングのレイテンシーも小さく抑えられることになる。

この連載の記事
-
第813回
PC
Granite Rapid-DことXeon 6 SoCを12製品発表、HCCとXCCの2種類が存在する インテル CPUロードマップ -
第812回
PC
2倍の帯域をほぼ同等の電力で実現するTSMCのHPC向け次世代SoIC IEDM 2024レポート -
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート - この連載の一覧へ