このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第872回

NVIDIAのRubin UltraとKyber Rackの深層 プロトタイプから露見した設計刷新とNVLinkの物理的限界

2026年04月20日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

NVL576の真実
キャッシュ・コヒーレンシーの壁とNVL288×2の推定

 さて話を戻す。最初のページの最後の画像で示したCompute Bladeであるが、実際には下の画像のようにRubin Ultraが実装されると考えた場合、NVSwitchを搭載したSwitch Bladeとの組み合わせは、その下の図になるのではないかと想定される。

 前述したとおり、Kyber Rackでは18枚のCompute Bladeを一塊にして、これが4つ縦方向に並んでいる。間をつなぐのはSwitch Bladeだが、この長さはどう見ても2塊分しかカバーしていない。したがって、4塊全体で相互接続しようと考えた場合、Switch Blade同士の相互接続を考える必要があるのだが、改めて下のSwitch Bladeを見ていただくとわかるように、そういったポートは特に見当たらないからだ。

Rubin UltraのSwitch Blade

 上の画像で言えば、上側はMidplaneに接続される部分なので、ここはGPUとの接続用である。すなわち、もしSwitch Blade同士を接続しようと思ったら、Switch Blade下側にポートが山のように並んでいないといけないのだが、どう見てもそういうポートはない。

 左端にあるのは管理用かなにかのイーサネットの口であり、NVLink同士の接続に使えるようには見えない。なので実際にはNVL576(GPUダイが576個)と言いつつ、NVLinkでキャッシュ・コヒーレンシーを保つ形で利用できるのは半分の288個まで、つまり実質NVL288×2構成になっていると筆者は推定する。

 理由はなんとなく想像できる。パッケージとしてはダイで1チップなので「144パッケージ」ではあるのだが、144という数字ですらキャッシュ・コヒーレントを取るのには十分に大きい。そして576はさらに厳しいからだ。そもそもNVLink、当初はPCI Expressに代わる高速なインターコネクトで、そこに付随してキャッシュ・コヒーレンシーが追加されていた。この目的はCPUとGPUのメモリー共有である。

 連載340回で紹介したが、IBMがオークリッジ国立研究所とローレンスリバモア国立研究所に納入したSummitおよびSierraというスーパーコンピューターはPOWER9とVoltaを組み合わせたハイブリッド構造であるが、この接続にIBMはCAPIを導入。NVLinkはこのCAPIに準拠する形で実装された。要するにPOWER9とV100の間でキャッシュ・コヒーレントを取れる構造だ。

 ただV100同士のキャッシュ・コヒーレントが取れたか? というとこれはまた別の話だったわけだが、Hopper世代からはこれが可能になっている。つまりあるSM(Streaming Multiprocessor)が別のSMの共有メモリーを直接アクセスできるようになった。Ampereの時代にもGlobal-to-Shared Asynchronous Transferと呼ばれる仕組みがあったが、Hopperの世代では完全にキャッシュ・コヒーレンシーをサポートするようになっている。

 一般論になるが、キャッシュ・コヒーレントを実現する場合には、それを維持するためにSnoopingと呼ばれる処理が必要になる。Snoopingに必要なトラフィックは、ノードの数のほぼ2乗に比例する形で増加する。例えば2つのノードでキャッシュ・コヒーレントを維持するために必要なSnoopのトラフィック量を1とすると、3ノードでは3、4ノードでは6、5ノードで10という具合に増えていく。

 もちろん、これはどんなアクセスの仕方をするか次第であって、例えばLLMの巨大なパラメーターを複数のGPUに分散させて格納し、それを随時読み出しながら処理するようなケースでは、そもそも書き換えが発生しないためSnoopのトラフィックは最小である。

 逆に前回説明した、TransformerのPrefillにおけるKVキャッシュの構築などはハンパない頻度で書き換えが発生するので、これをキャッシュ・コヒーレントの対象にするとSnoopのトラフィックがすさまじくなる。そこで、こういう領域はキャッシュ・コヒーレントの対象外とし、外部のGPUには共有しないといった工夫が必要になるわけだが、ノードの数が増えるとどうしてもSnoopのトラフィックは増える。

 NVL72のトラフィック量を基準にすると、NVL144はNVL72の4倍、NVL288では16.2倍、NVL576なら64.8倍まで増えることになる。したがって、全体を1つのノードとするのではなく、NVL288×2という構成にすると、トラフィックは32.4倍になり、ほぼNVL576の半分に減ることになる。Snoopのトラフィックは性能向上にまったく関係ない部分なので、これを減らすことで効率を少しでも上げたかったというあたりが一番ありそうな話である。

 さて、そうなるとSwitch Blade内部(Switch Bladeの写真でカバーが隠れている部分)はどうなっているのか? だが、3つのNVSwitchを組み合わせて144ポートのスイッチを構築するという下図のような構成になっているものと考えられる。2つの基板の間をさらに大量の配線で相互接続することは不可能ではないと思うが、そこまでやる必要もなさそうだからだ。

 ちなみにこれはRubin Ultra世代の話であるが、次のFeynman世代も最初の製品はKyber Rackを利用することが今回明らかになっており、ここでは電気配線に加えて光配線への言及もあった。このあたりの話はFeynmanの話そのものと併せて次回解説したい。

前へ 1 2 3 次へ

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,525
2
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,390
3
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,080
4
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,690
5
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥640
6
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
7
【Amazon.co.jp限定】 ロジクール ワイヤレスマウス 無線 マウス M185CG 小型 電池寿命最大12ケ月 M185 グレー 国内正規品
【Amazon.co.jp限定】 ロジクール ワイヤレスマウス 無線 マウス M185CG 小型 電池寿命最大12ケ月 M185 グレー 国内正規品
¥999
8
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥5,680
9
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,358
10
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,645

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン