ロードマップでわかる!当世プロセッサー事情 第838回
驚異のスループット! NVLink Fusionで最大900GB/秒を超えるデータ転送速度を実現する新世代AIインフラ
2025年08月25日 12時00分更新
NVLink Fusionは、NVIDIA以外のCPUやXPUもNVLinkで
GPUに直結できるようにした「オープン化版NVLink」
では具体的にNVLink Fusionはどんな形で提供されるのか? ということで、まずCPU向けが下の画像だ。特徴的なのはCHI I/Fを介していることだ。
CHIはCoherent Hub Interfaceの略で、ArmがAMBA(Advanced Microcontroller Bus Architecture)として無償公開している、SoC内のCPUと高速な周辺回路(メモリーやPCI Expressやアクセラレーターなど)を接続する際のプロトコルを規定したものの最新版であるAMBA 5の一部として提供されている。
名前の通りデバイス間のコヒーレンシーを確保するためのもので、例えばマルチプロセッサーシステムにおけるCPU同士のメモリー/キャッシュ・コヒーレンシーや、CPUとアクセラレーターのキャッシュ・コヒーレンシーを確保する際に利用されるプロトコルだ。このCHIを利用することで、AMDのAPUと同じCPUとGPUのユニファイド構成が実現できる。
- CPUは自身のメモリーとGPUのメモリーを、1つのユニファイド・メモリーとして自分のメモリー管理下でアクセスできる。
- GPUは自身のメモリーとCPUのメモリーを、1つのユニファイド・メモリーとして自分のメモリー管理下でアクセスできる。
- 両者の間で同期を取る必要がある場合に備えて、Atomic機構(ある領域を誰かがアクセスしている間は、他からはアクセスできない仕組み)が用意される。
ではXPUの側は? というと、NVLinkのプロトコルをCHI C2C(Core to Core)に載せ、それをUCIe上に通すという形で実装することが明らかにされた。
そのNVLink Chiplet IPの詳細が下の画像である。要するにCHI-LikeなプロトコルをNVLinkベースのプロトコルに変換して通信するのがわかる。
なんとなくこれで、NVLinkとNVLink Fusionの違いがわかってきた気がする。まずCHIの利用だが、そもそもGrace Hopperの構成を考えたとき、GraceはArmのNeoverse V2ベースのコアなので、Grace内部の72コアのキャッシュ・コヒーレンシーを取るためにCHIを利用するのはごく当然の話で、Hopperとの接続にあたってのキャッシュ・コヒーレンシーはCHIを使っている可能性が非常に高い。
ということは、Hopperの方はGraceとの接続部にCHIとNVLinkの変換機構を当然持っていたはずである。つまり上の画像に出てくる"CHI->NLV Shim"のブロックはHopperにも搭載されていると思われる。
その一方でGrace/HopperやGrace/Blackwell、次世代のVera/Rubinの組み合わせに不要なのはUCIeである。そもそもGrace/HopperもGrace/BlackwellもUCIeを使わずに実装されているからで、おそらくVera/RubinもUCIeを使わずに実装されることになるだろう。
ただこれでは互換性がないので、物理層をUCIeにしたのがNVLink Fusionになる。3つ上の画像で、NVLink C2C PHYがカスタムCPUと同一ダイ内に収められているように見えるかもしれないが、実際にはこちらもNVLink C2C PHYは別のダイで、CPUを収めたダイとの間はUCIeで接続される可能性すらある。
これによるメリットは、業界標準のUCIeで接続できることだ。ではデメリットは? というと、速度がNVIDIAのCPU+GPUの場合より遅くなりそうなことだ。UCIeである以上信号速度は32Gbps/pinに制限される。16bit幅で64GB/秒ほど。Grace Hopperが実現している900GB/秒以上(片方向あたり450GB/秒以上)を実現するには、最低でも113bit以上の幅が必要になる。実際には128bit幅にして512GB/秒というところか。
Advanced Packageなら1mm程度の幅でなんとか配線は収まりそうだが、これではGrace Hopperと同程度の帯域でしかない。実際にはもっとバス幅を広げないと性能を十分に生かしきれないだろうし、配線幅が結構広くなりかねない。これをパッケージで収められるかどうか、というあたりだ。
このチップレットの詳細仕様が明らかになっていないので、現時点ではなんとも言いにくいのだが、このあたりがNVLinkとNVLink Fusionの違いになる。
NVLinkは銅配線ベースのままで、光ファイバーには当面移行しない
最後に余談を。この講演の発表者であるKrishnan Geeyarpuram氏(Senior Distinguished Engineer)に「NVLinkを光ケーブルにする計画は? NVLink 6もまだ銅配線ベースのままなのか?」と質問したところ、回答は「NVLink 6のOberon rackはBlackwellベースのNVLink5と同じ銅配線ベースのものとなる。我々のNVLinkに対しての目標は、可能な限り銅配線のままで、性能や消費電力、レイテンシーの目標を達成しつつスケールアップすることだ」という返事が返ってきた。
要するにNVLink C2Cだけでなく、その先のNVSwitchへの配線も引き続き銅配線ベースのままとし、光ファイバーには当面移行しない(少なくともNVLink 6は間違いなく銅配線だし、この書き方だとNVLink 7も銅配線のままっぽい)ことが明らかにされたのは、筆者には驚きだった。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ














