前へ 1 2 3 次へ

Rubin Ultra搭載Kyber Rackが放つ100PFlops級ハイスペック性能と3600GB/s超NVLink接続の秘密を解析

2025年12月29日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

　前回まででHot Chipsの話は終わりなのだが、最後にHot Chipsでは出てこなかった話をしよう。それが何度かこれまでも言及してきた、ラックあたり600kWの消費電力となるKyberである。

NVIDIAの次世代ラックスケールシステムKyber（カイバー）

　Kyberが初めて言及されたのは、2025年3月のGTCだったと記憶している。次世代GPUであるVeraとRubin CPUを組み合わせたVera RubinがNVL144として2026年後半に投入された。

左下に、"Oberon Rack"の名称があるように、この世代はまだ現在のNVL72と同じラックアーキテクチャーが採用される

　その後継としてRubin Ultraを採用したものがKyber Rackに搭載される、ということが明らかにされた。スライドには出てこないが、Jen-Hsun Huang CEOが口頭で「消費電力が600kW」と説明している。

こちらは"Kyber Rack"の名称が左下に小さく記載されている

　Rubin Ultra NVL576の詳細はまだかなり謎の部分が多いので、これを推察してみよう、というのが今回のテーマである。実を言うと、このあと5月に開催されたGTC Taipei 2025でKyber関連の展示があり、貴重な写真が何枚かあるので、このあたりを使いながらKyberに収められるNVL576の内容を解析したい。

　まず基本的なGPUの性能をまとめたのが下表だ。「?」がついているのは筆者の推定である。

GPUの性能比較表
コード名	コア名	FP4	FP6/FP8	FP16/BF16	FP32	FP64
Volta	V100			125TFlops
Ampere	A100			312TFlops	156TFlops	19.5TFlops
Hopper	H100		2PFlops	1PFlops	0.5PFlops	25.6TFlops
Blackwell	B100×2	20PFlops	10PFlops	5PFlops	2.5PFlops	90TFlops
Blackwell Ultra	B100×2	20PFlops	10PFlops	5PFlops	2.5PFlops	90TFlops
Rubin	R100?×2	50PFlops	25PFlops?	12.5PFlops?	6.3PFlops?	225TFlops?
Rubin Ultra	R100?×4	100PFlops	50PFlops?	25PFlops?	12.5PFlops?	450TFlops?
Feynman	F100?×2	125PFlops?	62.5PFlops?	31.3PFlops?	15.8PFlops?	563TFlops?

　この表は各GPUのTensor Coreにおける性能を示したものであるが、RubinはNVL144がFP4で3.6EFlopsとあり、144ダイ(72GPU)で3.6Flopsなのでダイ1個で25PFlops、2つで50PFlopsと推定できる。Rubin Ultraはこのダイが4つで100PFlopsとなる。

　FP4に関しては、NVIDIAの「世代ごとに2.5倍の演算性能向上」のルールがうまく適用されている。したがってFeynmanはこのルールを適用して125PFlopsと推定している。

　一方でFP8については、FP4の1/3の性能であることが上2つの画像で示されているのだが、問題はこれはトレーニングだと明記されていることだ。NVIDIAの場合、トレーニングにはMixed Precisionを利用することがNVIDIAのWebサイトにも示されている。

　たとえばFP8とFP16を混在させる形だ。この場合、性能はFP8とFP16の中間程度になるわけで、これがFP4に比べて2分の1ではなく3分の1になる理由と考えられる。逆にFP8のみでTensor Coreを使って推論を実行する場合、性能は2分の1であるとみなして上表のようになっている。

　さて、表にして示したがこちらはあまり重要ではない。重要なのは次の表である。これはNVLinkの仕様を世代ごとにまとめたものである。

NVLinkの仕様表
コード名	コア名	NVLink	信号速度	配線数	変調方式	帯域(片方向・1 Link)	Link数	帯域(双方向・全Link)
Volta	V100	Gen 2	25GT/s	8 Pair	NRZ	25GB/s	6	300GB/s
Ampere	A100	Gen 3	50GT/s	8 Pair	NRZ	50GB/s	12	600GB/s
Hopper	H100	Gen 4	50GT/s	4 Pair	PAM4	50GB/s	12	900GB/s
Blackwell	B100×2	Gen 5	100GT/s	2 Pair	PAM4	50GB/s	18	1800GB/s
Blackwell Ultra	B100×2	Gen 5	100GT/s	2 Pair	PAM4	50GB/s	18	1800GB/s
Rubin	R100?×2	Gen 6	100GT/s	2 Pair	PAM4?	50GB/s	36	3600GB/s
Rubin Ultra	R100?×4	Gen 7	100GT/s	2 Pair	PAM4?	50GB/s	36	3600GB/s
Feynman	F100?×2	Gen 8	100GT/s	4 Pair?	PAM4 (多分)	100GB/s?	36?	7200GB/s?

　もともとNVLinkはPascal世代のP100で導入したGPU同士の接続方法で、従来のSLIを置き換えた。もっともSLIは画面描画の分割といった用途向けなので、そもそも目的が違う。P100の世代はGPU同士を直接Point-to-Pointで接続する形であったが、V100世代から間にNVSwitchと呼ばれるNVLink用のスイッチを挟んで構成するようになった。もちろんBlackwellやRubin、Feynman世代もこのNVSwitchを挟んで接続する形になっている。

NVLinkによる接続方法

画像の出典はNVIDIAのWebサイト

GTC 2025におけるロードマップ。Kyberの世代、Rubinには第6世代NVSwitch、Rubin Ultraには第7世代NVSwitchが充てられることが明記されている。Feynman世代は第8世代だ

　NVLink 5の世代まではすでに情報が公開されているわけだが、Rubin世代のNVLinkはまだ不明である。ただ、Rubin世代は260TB/秒の帯域を持つ、と記事冒頭の画像に明記されている。1つのGPUから出るNVLinkの帯域は双方向で3600GB/秒である。260T÷3600G＝72.2222であり、要するに72 GPUであり、ダイ数としては144なのでNVL144の名前なのだろう。

　ここでもう一度、記事冒頭の画像の左側を見ていただくと、最上段にToRスイッチ、その下に電源を挟んで10本のComputation Blade、9本のNVSwitch Blade、8本のComputation Bladeと続いている。おそらくComputation Bladeには2組のVera Rubin Superchipが入り、NVSwitch BladeにはNVLink Switchが4組入るという形と考えられる。

　なぜこう考えるかというと、2025年10月に開催されたGTC DC 2025における資料に、そのVera Rubin Superchipとそれを収めるComputation Blade、およびNVLink Switch Bladeが公開されており、スイッチは合計で4×9＝36個となる。ということは、1つのRubinからは36本のNVLinkが出る計算になる。