このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第829回

2026年にInstinct MI400シリーズを投入し、サーバー向けGPUのシェア拡大を狙うAMD AMD GPUロードマップ

2025年06月23日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

前世代より推論で平均3.5倍、学習で平均3倍の性能向上を果たした
ROCm 7.0

 MI350Xシリーズと同時に発表されたのがROCm 7.0である。最新のモデルやアルゴリズムへの対応、MI350など最新ハードウェアへの対応、複数のラックから構成される大規模クラスターへの対応などを含んだ、大掛かりなモノとなっている。

ROCm 7.0。性能を別にしても、SGLangやvLLM、llm-dなどのオープンソースフレームワークへの対応や、分散型推論の実装などが挙げられている

 特に性能向上は著しく、推論で平均3.5倍、学習でも平均3倍のパフォーマンスとなっている。またこれまでサーバーのみだった対応プラットフォームだが、クライアントのサポートが大幅に拡充された。

これはMI300X×8の上での実行結果で、同じデータ型を使っての推論速度の比較とされる。別にMI350XのFP4を使ったら倍速になった、というわけではない

学習も同じで、やはりMI300X×8の上で同じデータ型を使っての話。ここまで性能が上がるというのは、MI300X同士の連携などの最適化に問題があったのだろうか?

ROCmを直接Windowsから使うことは相変わらずできない(WSL経由で可能)だが、PyTorchやONNX-EPのサポートが追加されたのは大きい。またRHEL/Ubuntu/OpenSUSEへの対応も追加された

2026年にMI400シリーズが登場予定

 最後にこれに続く話である。Rack Solutionに関して今後さらに拡充することを明らかにしており、来年はMI400シリーズを中核としたものが登場するとしている。

AMDは、Rack Solutionを今後さらに拡充する予定。2026年はCPUもTSMC N2で製造されるZen 6ベースのVeniceとなり、それにMI400と新しいDPUが組み合わされる

 その2026年のものはHeliosというコード名となっており、MI400はNVIDIAの次世代製品のVera Rubinと同等以上の性能を発揮としたほか、次世代CPUであるVeniceの概略や、次世代NICであるPensando Vulcanoの概略も明らかにされた。そしてさらにその先の2027年には、MI500シリーズをベースにした次世代のRack Solutionを提供するとしている。

Heliosの概要。なぜFull RackではなくHalf Rackの実装例を示しているのかは謎。ただこれ、イメージであってあまり実際のラックとの整合性は考えていない気がする

MI400はNVIDIAの次世代製品のVera Rubinと同等以上の性能を発揮する。MI400の内部構造は次回説明する

Veniceの概略。Gen vs Gen Perfという書き方なので、この1.7倍はコア数も加味しての話かと思われる。また1.6TB/秒のメモリー帯域をどう実現するかも不思議なところで、あるいはHBM4をオンチップで搭載しているのかもしれない

Pensando Vulcanoの概略。UECだけでなくUALにも対応するのがこのVulcanoの世代である。800Gは時期を考えれば順当な速度だろう

右端、1Uブレードが33枚入っているのだが、これに該当するOCPのラックの規格が存在しない。実は2026年のHeliosもそうだが、適当に描いただけの可能性も否定できない気がしてきた。それとも今水面下でOCP Rack V4などの策定が進んでいて、それに準拠しているのだろうか?

 ちなみに2026年のHelios以降はPensando Volcanoをネットワークに採用するが、ここではUALinkが利用できることになっている。UALinkと対抗馬であるNVLink Fusionの違いをまとめたのが下の画像だ。

UALinkとNVLink Fusionの違い。スケーラビリティがUALinkの方がやや大きいのが特徴。ただNVLink Fusionの方はすでに実績があるし、次世代は光接続になる。このあたりはまだUALinkが遅れている点である

 おそらくHelios以降はクラスター内のGPUの接続にUALinkを使うだろう……と言いたいところなのだが、NVIDIAはMellanoxを買収した際に同社のSpectrum Switchの製品ラインナップを入手して、これを現在も提供している。

 対してAMDはスイッチ製品を持っていない(Pensandoはスイッチ用DPUを提供していた会社であり、スイッチそのものは提供していなかった)し、現時点でまだUALinkのスイッチは存在していない(Arista Networksあたりがなにかやってそうな気はするが)。これがないとUALinkだけあってもシステム構築は難しいわけで、そのあたりをこの先どう解消してゆくのかは今後の情報を待ちたいところだ。

 ということで今回はAdvancing AI 2025の概略を説明した。次回、MI350X/400Xの詳細などをもう少し深堀りしていく。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事