MI355XはMatrix Pathを大幅に強化
ではもう少し細かく見てみたい。下の画像は記事冒頭のチップ写真のアップであるが、ここからHBM3eのパッケージサイズ(11×11mm)を基準にそれぞれの寸法を算出すると下表になる。
| MI350の寸法 | ||||||
|---|---|---|---|---|---|---|
| パッケージ | 76.9×73.0mm | |||||
| XCD | 10.6×11.0mm=116.6mm2 | |||||
| IOD | 28.6×25.6mm=732.2mm2 | |||||
IODはかなり大きいが、先に書いたように以前に比べると大きなサイズでの歩留まりが向上していることが期待できる。一方でXCDは116.6mm2に収まっている。意外だったのは、N5→N3Pで面積が変わっていないことだ。
| MI300Xの寸法 | ||||||
|---|---|---|---|---|---|---|
| XCD | 115.0mm2 | |||||
| IOD | 370.0mm2 | |||||
というのはMI300Xは上表の寸法となっており、MI350XでIODのサイズが2倍になっているのは妥当なところ。その一方でXCDはほとんど面積が同じである(形は異なるが)。
余談ながらインターポーザーは57.1×48.8mmで2786.5mm2とかなり大きいが、2024年のTSMCのCoWoSのロードマップによれば、80×80mmまでの基板ではCoWoS-Sのままいけるとしており、今回もこれを利用して実装したものと考えられる。
次に内部構造をもう少し。MI350の内部は下の画像のようになっているというのがAMDの説明である。
MI350の内部。XCDというのは本来はダイを指す名称だったのだが、まるでこれだとダイが8つあるように見えなくもない。構造を見ているとキレイな対称型になっており、物理的にダイが8つでも不思議ではないように見える(歩留まりを考えるとその方がお得だが)のだが、前頁2つ目の画像と矛盾する
この構造の模式図が下の画像で、おのおののXCDは36個のCUが搭載され、そのうち32個が有効化されており、それと4MBの2次キャッシュが組み合わされている。
一方Infinity CacheはHBM3EのI/Fごとに32MB(2MB×16)が搭載され、これが8つで合計256MBという格好である。この構図を念頭にチップを拡大してみると、下の画像のような構図になっているのがわかる。
CUの構造次第ではあるのだが、もしMI300Xのものの延長にあるとすれば、CUの配置はこんな具合になっているものと思われる。2つのCU群の間に挟まれる紫色で囲んだ部分は、L1 Cacheとは考えにくい(最初はこれがL2かと思っていた)ので、Global Resourcesに相当する部分と考えた
さて問題のCUの構造だが、実はCUの構造が公開されていない。したがって、下の画像にある数字を基にCUの構成を推定する必要がある。
MI300XとMI355Xのスペックを比較したものが下表だ。
| MI300XとMI355Xのスペック | ||||||
|---|---|---|---|---|---|---|
| MI300X | MI355X | |||||
| XCD | 8 | 8 | ||||
| CU/XCD | 38 | 32 | ||||
| 総CU | 304 | 256 | ||||
| 総SP数 | 19456 | 16384(推定) | ||||
| 総Matrix Core数 | 1216 | 1024(推定) | ||||
| 最大動作周波数 | 2.1GHz | 2.4GHz | ||||
単純にCU数×動作周波数の比では以下の式になる。
304×2.1:256×2.4=638.4:614.4≒1:0.962
上の画像では"~1.0x"と丸められてしまっているが、前回の表では例えばVector FP16/32/64がいずれも"~0.96x"となっており、このCU×動作周波数の比に近いことから、CUの中のVector Pathに関しては少なくとも大きな手は入っていないように思われる。
したがって、Matrix Pathの方を大幅に強化した、というのがCDNA3→CDNA4の変更点というのは間違いないだろう。そもそもエリアサイズを比較した場合、(Global ResourcesやL2まで含めたラフな計算で言えば)、下式のようにCUあたりの面積は60%以上大きくなっている。
MI300X:40CU/115.0mm2なので2.875mm2/CU
MI350X:36CU/166.6mm2なので4.628mm2/CU
実際にはプロセスの違い(TSMCのN3は、ロジック密度がN5比で70%向上と説明されていた)も加味すると、仮にMI350XをTSMCのN5で実装したとしたら、面積は7.868mm2と2.74倍くらい巨大化していた可能性が高い。CUの規模を大型化したそのほとんどがMatrix Pathの性能向上に充てられたことがわかる。
しかも(これも前回も説明したが)Matrix FP64に関しては性能が半減している。これは、おそらくMatrix FP64の性能を維持したままではさらにサイズが大型化すること必至であり、Matrix FP64の性能を落とす(対応する演算器を減らす)ことでギリギリまでサイズを削ったのだろう。
こう考えると、MI350XはNVIDIAのBlackwell同様、HPCは捨ててAIを強化する方向に舵を切った構成と考えて間違いはないだろう。Blackwell対抗をうたう以上、HPC向けをある程度切り捨てないと勝負にならないのは仕方ないだろう。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ





