MCCとXCC、どちらも化け物
さて、Sapphire RapidsのXCCの内部構造は、以前何度か説明した。最初に説明したのは連載586回だが、この後いくつか新情報があり、補正したのが連載631回で筆者が示した図である。ただこの構造でもまだ間違っていた。どのあたりが間違っていたか、というと「EMIB経由の通信はUPIではない」ということだ。
下図は、XCCにあるタイルの内部構造「推定図」である。なぜで推定か? というと、インテルが示した画像では潰れて見えないためである。ただこの構造そのものは、Skylake-SPベースの初代Xeon Scalableから共通のもので、縦横のリングバスでメッシュの構成となる。
ブロック(黒枠)は全部で20個あり、うちCPUコアが15個、PCIe I/Fが2個、PCIe/CXL I/Fが1個、UPIが1個、DDR5 2chのメモリーコントローラーが1個という構図と思われる。
なおUPIにはおそらくDMIのI/Fも含まれていると思うが、ここではこれは無視する。上の画像の左図にある左上のタイルを模した格好だ。リングバスは横方向が5本(うちPCIeやUPIをつなぐリングのみやや太いので、これのみ2対なのかもしれない)、縦方向が2本になっている。
さて、4タイルのXCCではこれがどうつながるか? というのが下図だ。要するに4つのタイルの内部にある、縦横のリングバス同士をEMIB経由で接続することで、物理的には4つに分割されていつつも、論理的には1つの巨大なモノリシックなダイが構築されることになる。
なにせ縦方向4本、横方向10本の巨大なメッシュである。この際EMIBは、縦方向は1本で1つ、横方向は2本あたり1つ(I/F同士の接続は1本で1つ)配されており、合計で10個という計算になる。インテルとしては、UPI経由での接続にすることでのレイテンシーの増加や帯域の制限はどうしてもいやだったらしい。
このあたりは、それを割り切ってインフィニティ・ファブリックでの接続としたEPYCとの大きな相違点である(どちらが良い悪い、というのは簡単には断じることができないが)。結果としてXCCは、論理上は1600mm2にもおよぶ巨大なモノリシック・ダイのプロセッサーになったわけだ。
なおXCCとHBMの違いだが、HBMではコアの数がタイルあたり14個に減り、その代わりにHBMのI/Fが搭載された形になっている。HBMのI/FとDDR5のメモリーコントローラーが別、というのは以前HotChipsで明確に返事をいただいており、またXeon MAXはハイエンドの9480でも56コア(つまりタイルあたり14コア)であることから、下図のような構成と考えられる。
もっとも、怪しいのはそもそもそこまでHBM2eのI/Fは大きいのか? という疑問があるからだ。次に説明するが、このHBM I/FにはPHYは含まれていない。純粋にその上位のコントローラー部のみである。
実はHBMとXCCは物理的には同じタイル(つまり15コア+HBM I/Fが全部入っている)で、HBM I/Fを無効化したのがXCCタイル、コア+LCCを1ブロック無効化したのがHBMタイルという可能性もなくはない。
ただ公式のインテルの見解は別のもの、ということになっているのだが、記事冒頭の画像でXeon MAXの欄を見るとダイチップが“XCC”と書いてあるあたり、少し怪しい気がする。
さてXCCの話はこのくらいにして次はMCCである。今回インテルはMCCのダイを一切披露していない。ただインテルが示した画像で大まかに構成はわかる。ということで下図がその推定図である。
横方向7本、縦方向4本のリングバスでメッシュを構成しており、ブロック数は7×7で49個。うち32個がCPU+3次キャッシュで、残る17個がI/F類というかたちになる。ところでこのMCCのサイズはどのくらいだろうか? 下の画像は、インテルが公開したXCCのウェハー写真である。
例によって斜めからの撮影なのでけっこう歪みがある。そこで大雑把に歪みの補正を行なったのが下の画像だ。
300mmウェハーで、縦横ともにタイル15個分ほどであり、ダイサイズは事前説明があったように20×20mmと計算される。ウェハーの中心部を拡大したのが下の画像であるが、CPUとDDR5、I/Fからなる20ブロック(つまり赤/黄/橙/青/水色で囲った部分)の面積は17.0×15.5mmほどと推定される。この20ブロックで263.5mm2、ブロック1個あたり13.18mm2ほどになる計算だ。
ここでDDR5×2chのブロックのすぐ右は、DDR5のPHYが占めていると考えられる。一方左および下側は未使用のエリアに見えるが、ここにはアンコアの部分、つまりアクセラレーター類が搭載されているのだろう。
HBMタイルに関して言えば、左側の空いている部分にPHYが来るのではないか? と筆者は考えている。このアクセラレーターとDDR5のPHY(と、もしかするとHBMのPHY)の面積は、400mm2から20ブロックの分を抜いた136.5mm2ほどになるという計算だ。
さてここでMCCに話を戻す。MCCの構造が想定図のとおりだとすると、この49ブロック分の面積は13.18×20≒645.8mm2ほどになる。MCCはHBMのI/Fは持たない一方、DDR5が8ch分出てくるので、PHYの面積はそれなりになる。それ+アクセラレーターの分まで加味すると、大雑把に言って750mm2かそれ以上になる計算だ。
つまり相当大きい(レティクルリミットに挑戦する)サイズになると考えられる。こうなってくると相当歩留まりも低そうな感じであり、どこまでちゃんと取れるのか心配になる。ウェハー1枚から取れる個数は試算では75個前後になる計算で、製造原価は200ドルほど、製品原価で300ドルは切らないだろう。
このMCCを使う一番安い製品はXeon Bronze 3408Uだが、諸費用を考えるとギリギリ赤字になるかならないか、というあたりの際どい値付けであることがわかる。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ