このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第681回

スーパーコンピューターの系譜 HPEが独自のインターコネクト「Slingshot-11」を発表 

2022年08月22日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Slingshot-11の中核となる
ネットワークコントローラーのCassini

 Slingshot-11を発表したのはKeith D. Underwood氏(Senior Distinguished Technologist, HPC&AI, HPC)だが、Underwood氏の前職はCray Inc.のSenior Principal Engineer、さらにその前はインテルでLead Architect for HPC Interconnectsの職にあり、要するにCrayは一旦HPC向けインターコネクトのハードウェアを捨てたものの、改めて開発を始めることになり、それがHPEに買収された後も続いていたのだと思われる。

 ちなみにUnderwood氏がインテルからHPEに移籍したのは2019年5月なので、2012年にCrayから買収したインターコネクトのことはよく知っていたと想像できる。

 Slingshot-11が初めて全面的に利用されたのは、Frontierである(中途半端な言い方なのは、Perlmutterも途中からSlingshot-11に切り替わったため)。Frontierの基本的な構造は連載635回、正確なノードの構成は連載644回、動作周波数などのパラメーターは連載670回でそれぞれ説明したが、連載644回のこちらの図で、おのおののInstinct MI250Xから出ている200Gbps NICがSlingshot-11である。

連載644回で示した図。Instinct MI250Xから出ている200Gbps NICがSlingshot-11である

 Cassini、というのがコントローラーの名前であるが、そのCassiniの簡単な説明が下の画像だ。システム全体で言えば、Rosettaベースのスイッチが全部で2368台ある計算になる。

Cassiniの概要。74グループということは、1グループにはおよそ127ノード強が含まれることになる。おそらく基本は1グループ128ノードで、1グループのみ64ノードということか? おのおののノードが32 Rosettaスイッチというあたりからもこれが想像できる

 RosettaそのものはSlingshot-10の世代から変化がなく、違いはSlingshot-11のみになる。最大の違いは、Slingshot-10のConnectX-5が100Gbps×2だったのに対し、Cassiniは200Gbps×2になったことだ。またHost I/Fも2つになっている。

 連載635回でFrontierの内部推定図を書いたが、実際には下図のような構成になっていることがわかった。またHost I/F、つまりInstinct MI250xとの接続は最大25Gbpsまで信号速度を引き上げられるとしている。接続はx16レーンなので、帯域は50GB/秒に達することになる。

Frontierの構成

 ただ物理的に言えば完全に2つの200Gイーサネットを1つのダイで構成したような構造であり、言ってみればConnectX-5を2つ、1つのパッケージに収めたような構成である。

イーサネットでありながら、TSMCの16nmで132mm2という巨大なダイである。もっとも2つ分と考えれば1個66mm2なので、極端に大きいとも言いにくい。30Wの消費電力も、トータルで400Gbpsと考えると、妥当な数字に思える

 Cassiniは、FrontierとPerlmutter、さらにはAuroraにも採用されることなっている。

もっともPerlmutterではCassiniを使うと半分が遊んでいる格好になる。それでもアップグレードを予定しているのは、Cassiniのハードウェアアシスト機構が魅力なのかもしれない

 接続のされ方はそれぞれ異なり、以下のようになっている。

Cassiniの接続方法
Perlmutter 1つのEPYCから2つのCassiniがPCIeで直接接続
Frontier 4つのInstinct MI250Xからそれぞれ1つのCassiniがPCIeで直接接続
Aurora 2つのSapphire Rapidsからそれぞれ2つのCassiniがPCIe Switch経由で接続

 AuroraでPCIeスイッチを挟む理由は、Sapphire RapidsからはPCIe Gen5 x16が出て、これをPCIe スイッチ経由で2×PCIe Gen4 x16に変換するためであろう。またCassiniはPCIeカードとチップでの提供の2種類が用意されるとしている。

PCIeカードの方は、PCIe Gen4 x16だと帯域が足りない。ひょっとしてPCIe Gen5 x16のスイッチを搭載しているのだろうか?

 ソフトウェアから見たCassiniの特徴は下の画像のとおり。HPCでプロセッサー間通信や同期などに使われるMPIに向けたハードウェアアシスト機構やPGAS(Partitioned Global Address Space:区分化大域アドレス空間)と呼ばれる並列計算向けのアドレスモデルへの対応、さらにはイーサネットとして利用する場合のサポートなどが用意されているとする。

ソフトウェアから見たCassiniの特徴。ConnectX-5も、HPC向けにこうしたハードウェアアシスト機能は用意されていたが、これを一歩進めた格好だ

 イーサネットとSlingshotの違いは下の画像がわかりやすいが、イーサネットの上にIPなどを載せると、プロトコルのオーバーヘッドが非常に大きくなるのに対し、Slingshotではそのオーバーヘッドがほぼ半減しているのがわかる。

 これは特にPayload(要するに実際のデータ)が小さいときに効果的であって、トータルのパケットサイズが小さいほど通信に要する時間も、ルーティングのレイテンシーも小さく抑えられることになる。

Slingshotで利用する場合はIPを通す必要がないから、こうしたオーバーヘッドの削減が可能になる

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン