ロードマップでわかる!当世プロセッサー事情 第856回
Rubin Ultra搭載Kyber Rackが放つ100PFlops級ハイスペック性能と3600GB/s超NVLink接続の秘密を解析
2025年12月29日 12時00分更新
NVLink6の帯域が260TB/秒なのに対して
NVLink7の帯域が1.5PB/秒まで増えている謎
問題は次のRubin Ultra世代だ。これはどういう構成になるのだろう? 下の画像を見ると、4段に分かれておのおの縦方向に18枚づつブレードが刺さっているのがわかる。GTCにおいて、この縦挿しのものがCompute Bladeであることが明らかになっている。つまりCompute Bladeは18×4で72枚である。
NVL576は名前の通り576個のRubinのダイが搭載されているので、ブレードあたり8ダイという計算になる。Rubin Ultraは1チップで4ダイ。すなわちRubin Ultraが2チップで、これにVeraが追加されて1枚のブレードという可能性が高い。COMPUTEX TAIPEIの取材で中山智氏が撮影した写真を拡大して注釈をつけたのが下図である。
つまりSuperchipの形ではもはや収まらず、Blade全体でRubin Ultraが2チップ構成になったのだろう。といっても、最終的にCompute Blade1枚あたりRubinのダイが8つということそのものは変化がない。
NVL72/144では18枚のCompute Bladeで構成されていたのに、NVL576では72枚のCompute Bladeまで増えているため、ダイ数は4倍になっているわけで、性能がNVL144の4倍になっていることそのものは別に不思議ではない。不思議なのはNVLinkの合計帯域である。
記事冒頭の画像ではNVLink6の帯域が全部で260TB/秒であるとされているが、下の画像ではNVLink7の帯域が1.5PB/秒まで増えていると記載されているのが謎なのである。
先程と同じ計算をしてみよう。Rubin UltraはRubin×2の4ダイ構成になっているので、1つのパッケージからは最大72本のNVLinkが出せる計算だ。つまりCompute Bladeあたり144本。ブレードは72枚なので、144×72=10368本であり、NVLink 1本あたりが100GB/秒なのでトータルで1.0368PB/秒にはなる計算で、1.5PB/秒には少し遠い。
上図ではオレンジ色で154pinコネクター×4と書いた。中山智氏撮影の写真では左端に見切れているのだが、Kyberでは新しいMidplaneという基板を用意しており、ここに154pinコネクターを18列×4段に並べ、そこに直接Compute Backplaneを差し込む方式になっている。
それ以外にも冷却液や電源も、全部バックプレーン側に差し込むとそのまま使えるようになっており、NVLinkは154pinコネクター×4を通してMidplaneにつなぐ形で利用される。
仮にRubin Ultraは全部で72 LinkのNVLinkを出せると仮定する。1本のNVLinkは2ペアのDifferential信号なので72×2×2=288本。Compute BladeにはRubin Ultraが2つ搭載されるから、288×2=576本の信号ピンが必要である。
154pinコネクター×4では616pinが使えるから、72 LinkのNVLinkを出すには十分である。逆に言うと、これ以上のNVLinkを出すのは難しいことになる。
下図はNVLink Switch Bladeの方だが、こちらも構造はよく似ているが、後端のコネクターが×6になっており、NVLink Switchが3つないし6つ搭載されているのか? と考えてしまう。
そもそもRubin世代までのNVLink Switchは72ポートだった。GPUの数が72個なので、これと辻褄があっている。ところがRubin Ultra世代ではGPUの数が144個になる。内部的には2GPU構成なのでGPUの数としては288個相当になる。これはポート数が絶対的に足りないわけで、すべてのGPU同士を1 Hop(GPU-NVLink Switch-GPU)でつなぐのがこの時点で無理という計算になる。したがって、NVLink Switchを複数介してPeer-to-Peerではなく2 Hopで接続する形態が考えられる。
2 Hopの場合、スイッチそのものは見かけ上288ポート必要になる。もっとも、実際にどうなっているかはまだ確定できない。考え方としては、288ポートのスイッチを作る場合と、144ポート×2を作る場合が考えられる。
どちらも72ポートの72ポートのNVLink Switchのうち48ポートはRubin Ultraと接続、残り24ポートをほかのスイッチとの相互接続に利用する形となる。288ポートの場合、NVLink Switch Blade1枚あたりの帯域は68×6×100GB/秒=40.8TB/秒。144ポートの場合は72×3×2×100GB/秒=43.2TB/秒となる。前者なら36枚搭載すると1468.8TB/秒、後者なら1555.2TB/秒になり、どちらも丸めると1.5PB/秒という計算になる。
144ポート×2の場合と288ポートの場合の接続方法をそれぞれ示す。このどちらの構成図が正確なのか、というのは現時点で断言できる情報がないので、今後への持ち越しになるだろう。

この連載の記事
-
第855回
PC
配線太さがジュース缶並み!? 800V DC供給で電力損失7~10%削減を可能にする次世代データセンターラック技術 -
第854回
PC
巨大ラジエーターで熱管理! NVIDIA GB200/300搭載NVL72ラックがもたらす次世代AIインフラの全貌 -
第853回
PC
7つのカメラと高度な6DOF・Depthセンサー搭載、Meta Orionが切り開く没入感抜群の新ARスマートグラス技術 -
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ - この連載の一覧へ



















