このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第830回

HPCからAI向けに用途を変えたInstinct MI350X/400X AMD GPUロードマップ

2025年06月30日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

MI355XはMatrix Pathを大幅に強化

 ではもう少し細かく見てみたい。下の画像は記事冒頭のチップ写真のアップであるが、ここからHBM3eのパッケージサイズ(11×11mm)を基準にそれぞれの寸法を算出すると下表になる。

ダイの拡大写真。厳密に計算したら、正方形ではなかった

MI350の寸法
パッケージ 76.9×73.0mm
XCD 10.6×11.0mm=116.6mm2
IOD 28.6×25.6mm=732.2mm2

 IODはかなり大きいが、先に書いたように以前に比べると大きなサイズでの歩留まりが向上していることが期待できる。一方でXCDは116.6mm2に収まっている。意外だったのは、N5→N3Pで面積が変わっていないことだ。

MI300Xの寸法
XCD 115.0mm2
IOD 370.0mm2

 というのはMI300Xは上表の寸法となっており、MI350XでIODのサイズが2倍になっているのは妥当なところ。その一方でXCDはほとんど面積が同じである(形は異なるが)。

 余談ながらインターポーザーは57.1×48.8mmで2786.5mm2とかなり大きいが、2024年のTSMCのCoWoSのロードマップによれば、80×80mmまでの基板ではCoWoS-Sのままいけるとしており、今回もこれを利用して実装したものと考えられる。

2024年のTSMCのCoWoSのロードマップ。次のInstinct MI400シリーズは、あるいは有機パッケージを使ったCoWoS-Rに切り替わるかもしれない

 次に内部構造をもう少し。MI350の内部は下の画像のようになっているというのがAMDの説明である。

MI350の内部。XCDというのは本来はダイを指す名称だったのだが、まるでこれだとダイが8つあるように見えなくもない。構造を見ているとキレイな対称型になっており、物理的にダイが8つでも不思議ではないように見える(歩留まりを考えるとその方がお得だが)のだが、前頁2つ目の画像と矛盾する

 この構造の模式図が下の画像で、おのおののXCDは36個のCUが搭載され、そのうち32個が有効化されており、それと4MBの2次キャッシュが組み合わされている。

Infinity Fabric Advanced Packageはあくまで2つのIODのInfinity Fabric同士を接続するものであると理解できる

 一方Infinity CacheはHBM3EのI/Fごとに32MB(2MB×16)が搭載され、これが8つで合計256MBという格好である。この構図を念頭にチップを拡大してみると、下の画像のような構図になっているのがわかる。

CUの構造次第ではあるのだが、もしMI300Xのものの延長にあるとすれば、CUの配置はこんな具合になっているものと思われる。2つのCU群の間に挟まれる紫色で囲んだ部分は、L1 Cacheとは考えにくい(最初はこれがL2かと思っていた)ので、Global Resourcesに相当する部分と考えた

 さて問題のCUの構造だが、実はCUの構造が公開されていない。したがって、下の画像にある数字を基にCUの構成を推定する必要がある。

基本FP16/BF16以下のMatrix Pathの性能を倍増させ、かつFP6/FP4のサポートを追加したことになる

 MI300XとMI355Xのスペックを比較したものが下表だ。

MI300XとMI355Xのスペック
  MI300X MI355X
XCD 8 8
CU/XCD 38 32
総CU 304 256
総SP数 19456 16384(推定)
総Matrix Core数 1216 1024(推定)
最大動作周波数 2.1GHz 2.4GHz

 単純にCU数×動作周波数の比では以下の式になる。

304×2.1:256×2.4=638.4:614.4≒1:0.962

 上の画像では"~1.0x"と丸められてしまっているが、前回の表では例えばVector FP16/32/64がいずれも"~0.96x"となっており、このCU×動作周波数の比に近いことから、CUの中のVector Pathに関しては少なくとも大きな手は入っていないように思われる。

 したがって、Matrix Pathの方を大幅に強化した、というのがCDNA3→CDNA4の変更点というのは間違いないだろう。そもそもエリアサイズを比較した場合、(Global ResourcesやL2まで含めたラフな計算で言えば)、下式のようにCUあたりの面積は60%以上大きくなっている。

MI300X:40CU/115.0mm2なので2.875mm2/CU
MI350X:36CU/166.6mm2なので4.628mm2/CU

 実際にはプロセスの違い(TSMCのN3は、ロジック密度がN5比で70%向上と説明されていた)も加味すると、仮にMI350XをTSMCのN5で実装したとしたら、面積は7.868mm2と2.74倍くらい巨大化していた可能性が高い。CUの規模を大型化したそのほとんどがMatrix Pathの性能向上に充てられたことがわかる。

 しかも(これも前回も説明したが)Matrix FP64に関しては性能が半減している。これは、おそらくMatrix FP64の性能を維持したままではさらにサイズが大型化すること必至であり、Matrix FP64の性能を落とす(対応する演算器を減らす)ことでギリギリまでサイズを削ったのだろう。

 こう考えると、MI350XはNVIDIAのBlackwell同様、HPCは捨ててAIを強化する方向に舵を切った構成と考えて間違いはないだろう。Blackwell対抗をうたう以上、HPC向けをある程度切り捨てないと勝負にならないのは仕方ないだろう。

カテゴリートップへ

この連載の記事