このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第856回

Rubin Ultra搭載Kyber Rackが放つ100PFlops級ハイスペック性能と3600GB/s超NVLink接続の秘密を解析

2025年12月29日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 前回まででHot Chipsの話は終わりなのだが、最後にHot Chipsでは出てこなかった話をしよう。それが何度かこれまでも言及してきた、ラックあたり600kWの消費電力となるKyberである。

NVIDIAの次世代ラックスケールシステムKyber(カイバー)

 Kyberが初めて言及されたのは、2025年3月のGTCだったと記憶している。次世代GPUであるVeraとRubin CPUを組み合わせたVera RubinがNVL144として2026年後半に投入された。

左下に、"Oberon Rack"の名称があるように、この世代はまだ現在のNVL72と同じラックアーキテクチャーが採用される

 その後継としてRubin Ultraを採用したものがKyber Rackに搭載される、ということが明らかにされた。スライドには出てこないが、Jen-Hsun Huang CEOが口頭で「消費電力が600kW」と説明している。

こちらは"Kyber Rack"の名称が左下に小さく記載されている

 Rubin Ultra NVL576の詳細はまだかなり謎の部分が多いので、これを推察してみよう、というのが今回のテーマである。実を言うと、このあと5月に開催されたGTC Taipei 2025でKyber関連の展示があり、貴重な写真が何枚かあるので、このあたりを使いながらKyberに収められるNVL576の内容を解析したい。

 まず基本的なGPUの性能をまとめたのが下表だ。「?」がついているのは筆者の推定である。

GPUの性能比較表
コード名 コア名 FP4 FP6/FP8 FP16/BF16 FP32 FP64
Volta V100 125TFlops
Ampere A100 312TFlops 156TFlops 19.5TFlops
Hopper H100 2PFlops 1PFlops 0.5PFlops 25.6TFlops
Blackwell B100×2 20PFlops 10PFlops 5PFlops 2.5PFlops 90TFlops
Blackwell
Ultra
B100×2 20PFlops 10PFlops 5PFlops 2.5PFlops 90TFlops
Rubin R100?×2 50PFlops 25PFlops? 12.5PFlops? 6.3PFlops? 225TFlops?
Rubin
Ultra
R100?×4 100PFlops 50PFlops? 25PFlops? 12.5PFlops? 450TFlops?
Feynman F100?×2 125PFlops? 62.5PFlops? 31.3PFlops? 15.8PFlops? 563TFlops?

 この表は各GPUのTensor Coreにおける性能を示したものであるが、RubinはNVL144がFP4で3.6EFlopsとあり、144ダイ(72GPU)で3.6Flopsなのでダイ1個で25PFlops、2つで50PFlopsと推定できる。Rubin Ultraはこのダイが4つで100PFlopsとなる。

 FP4に関しては、NVIDIAの「世代ごとに2.5倍の演算性能向上」のルールがうまく適用されている。したがってFeynmanはこのルールを適用して125PFlopsと推定している。

 一方でFP8については、FP4の1/3の性能であることが上2つの画像で示されているのだが、問題はこれはトレーニングだと明記されていることだ。NVIDIAの場合、トレーニングにはMixed Precisionを利用することがNVIDIAのWebサイトにも示されている。

 たとえばFP8とFP16を混在させる形だ。この場合、性能はFP8とFP16の中間程度になるわけで、これがFP4に比べて2分の1ではなく3分の1になる理由と考えられる。逆にFP8のみでTensor Coreを使って推論を実行する場合、性能は2分の1であるとみなして上表のようになっている。

 さて、表にして示したがこちらはあまり重要ではない。重要なのは次の表である。これはNVLinkの仕様を世代ごとにまとめたものである。

NVLinkの仕様表
コード名 コア名 NVLink 信号速度 配線数 変調方式 帯域(片方向
・1 Link)
Link数 帯域(双方向
・全Link)
Volta V100 Gen 2 25GT/s 8 Pair NRZ 25GB/s 6 300GB/s
Ampere A100 Gen 3 50GT/s 8 Pair NRZ 50GB/s 12 600GB/s
Hopper H100 Gen 4 50GT/s 4 Pair PAM4 50GB/s 12 900GB/s
Blackwell B100×2 Gen 5 100GT/s 2 Pair PAM4 50GB/s 18 1800GB/s
Blackwell
Ultra
B100×2 Gen 5 100GT/s 2 Pair PAM4 50GB/s 18 1800GB/s
Rubin R100?×2 Gen 6 100GT/s 2 Pair PAM4? 50GB/s 36 3600GB/s
Rubin
Ultra
R100?×4 Gen 7 100GT/s 2 Pair PAM4? 50GB/s 36 3600GB/s
Feynman F100?×2 Gen 8 100GT/s 4 Pair? PAM4
(多分)
100GB/s? 36? 7200GB/s?

 もともとNVLinkはPascal世代のP100で導入したGPU同士の接続方法で、従来のSLIを置き換えた。もっともSLIは画面描画の分割といった用途向けなので、そもそも目的が違う。P100の世代はGPU同士を直接Point-to-Pointで接続する形であったが、V100世代から間にNVSwitchと呼ばれるNVLink用のスイッチを挟んで構成するようになった。もちろんBlackwellやRubin、Feynman世代もこのNVSwitchを挟んで接続する形になっている。

NVLinkによる接続方法

GTC 2025におけるロードマップ。Kyberの世代、Rubinには第6世代NVSwitch、Rubin Ultraには第7世代NVSwitchが充てられることが明記されている。Feynman世代は第8世代だ

 NVLink 5の世代まではすでに情報が公開されているわけだが、Rubin世代のNVLinkはまだ不明である。ただ、Rubin世代は260TB/秒の帯域を持つ、と記事冒頭の画像に明記されている。1つのGPUから出るNVLinkの帯域は双方向で3600GB/秒である。260T÷3600G=72.2222であり、要するに72 GPUであり、ダイ数としては144なのでNVL144の名前なのだろう。

 ここでもう一度、記事冒頭の画像の左側を見ていただくと、最上段にToRスイッチ、その下に電源を挟んで10本のComputation Blade、9本のNVSwitch Blade、8本のComputation Bladeと続いている。おそらくComputation Bladeには2組のVera Rubin Superchipが入り、NVSwitch BladeにはNVLink Switchが4組入るという形と考えられる。

 なぜこう考えるかというと、2025年10月に開催されたGTC DC 2025における資料に、そのVera Rubin Superchipとそれを収めるComputation Blade、およびNVLink Switch Bladeが公開されており、スイッチは合計で4×9=36個となる。ということは、1つのRubinからは36本のNVLinkが出る計算になる。

Vera Rubin Superchip。Rubin×2+Veraで1つのSuperchipを構成するのはBlackwellと同じ

Computation Blade。上側にSuperchip×2が並び、その下にあるのはConnectX-9チップだろうか?

NVLink Switch Blade。NVLink Switchが4つ搭載されているのがわかる

 逆に言えば36本で3600GB/秒なので、速度そのものはGen 5と同じく片方向あたり100GT/秒の信号のPAM4変調×2ペアで50GB/秒、双方向で100GB/秒という形の実装と考えられる。結果、NVL144のNVLink接続図は下図のようになる。配線量はNVL72の倍になる計算である。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン