遅延が問題視されるSapphire Rapidsは今どうなっている？　インテル CPUロードマップ

2022年11月28日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

Sapphire RapidsのHBM版は
Xeon MAXというブランドになる

　さてそのSapphire Rapidsの最初の納入先の1つは間違いなくアルゴンヌ国立研究所である。いうまでもなくAurora向けの納入である。11月9日にダラスでSC22が開催されたが、これに合わせてインテルはプレスリリースを出し、アルゴンヌ国立研究所や京大、その他のサイトに納入するHPC向けのSapphire RapidsをXeon MAXというブランドにすることを明らかにした。ちなみにPonte Vecchioの方はIntel MAX Series 1xxx GPUというブランドになるそうだ。

　このXeon MAXであるが、該当するのはSapphire Rapids HBMのみになりそうだ。というのはリリースを読んでも「Sapphire RapidsをXeon MAXとして販売する」とはどこにも書いておらず、また同じ11月9日に出した別のリリースでは「第4世代Xeon ScalableとHabana Gaudi 2によるMLPerf Training v2.1の結果がMLCommonsに登録された」としている。

　要するにSapphire Rapidsそのものは引き続き従来のXeon Scalableとして発売され、Sapphire Rapids HBMのみがXeon MAXというブランドになると考えるのが妥当そうである。

　よくわからないのはSKUである。Ponte Vecchioの方はIntel MAX Series 1100/1350/1550という3つのグレードがあり、それぞれ56/96/128 Xeコアを搭載するとされるが、Xeon MAXの方はそのSKUに関する説明が一切ない。

“Up to 56 P-core”とあるので、より少ないコア数のSKUもありそうだ

　一応このXeon MAXは最大56コア(この数字が公式に発表されるのはこれが最初)とされており、連載586回で触れたように、14コアのタイルが4つ集積されていることが確定した格好だ。

Max Series 1100はそもそも半分の規模で、PCIeカードの形で提供される

　ちなみにXeon MAXのTDPは350W。第3世代Xeon Scalableに属するXeon Platinum 8380でも270Wであることを考えると、コア数が増えたことを勘案してもけっこう大き目という感じはある。

　絶対的な消費電力という観点で言えば先日発表になったAMDのGenoaベースのEPYC 9654/9654Pは定格TDPが360Wだが、こちらは96コアであることを考えると、コアあたりの消費電力はXeon MAXが2倍以上ということになる。もちろんHBM2を64GB分積層していることを勘案する必要はあるだろうが。

スパコン「Aurora」がTOP500に載らず
構築するのに必要な数のXeon MAXが集まらない

　さて問題はそのXeon MAXとMAX Series 1xxx GPU(おそらく1550だろう)を組み合わせて構築されるAuroraである。連載632回でもAuroraには触れたが、すでに稼働予定が1年スライドしている。そんなこともあって前回のTOP500にはAuroraはエントリーされなかった。では今回は？　というと、今回もエントリーがなく、それもあってTOP500のトップは相変わらずFrontierのままである。

　ただ今回SC22に合わせてインテルはイベントを打っており、先のMAXシリーズの発表以外にもAuroraのアップデートを公開したりしている。

　その動画から抜粋したのが下の画像なのだが、どうも怪しい。

こちらはおそらくAuroraで間違いない。ただしラックの裏側である

さて問題はこちら。これはなんだろう？

　Auroraでは2つのXeon Maxと6つのMax Series GPUでノードを構成する。Auroraでは、これを1つのラックに64枚装着する格好と思われる。ちなみにAuroraはこのブレード1枚を1ノードとして計算する。インテルのリリースによれば、Auroraは1万以上のブレード(＝1万以上のノード)から構成されるそうで、ということは最低でもラックは156本以上存在することになる。

手前にMAX GPUのOAMが6つ、その奥にXeon MAXが配され、その奥はSlingshotのI/Fなどが置かれる模様

当然1Uのブレードで空冷は無理なので、こんな感じに液冷のためのパイプが這いまわることになる。通例で言えばシャーシから飛び出している青のジャックが冷却水供給、赤が排水となるだろう

装着は縦型。ブレードは19枚だが、中央の3枚はなにか別の用途のもので、その左右に8枚づつAuroraのブレードが配される。これが縦4段でラック当たり64枚である

　まぁここまでは良い。問題は4つ前の画像が何か？　ということだ。これはAuroraのブレードの表側にはどうやっても見えない。そもそもAuroraはブレードを縦置きだが、シャーシが横置きになっている時点で明らかに別物である。

　実はこの答えも動画の後半に含まれている。Auroraのブレードは本当にAurora専用という感じであるが、もう少し汎用のデータセンター向けとしてインテルはMax Series GPU OAM×4とXeon Max×2を組み合わせた1Uブレードベースのシステムを提供している。動画内で示されたのは、この汎用サーバーの構成に思える。ということはAuroraかどうかも結構怪しい。

構造を考えると1Uでこれを実装するのは液冷でないと厳しそうな気もするのだが、液冷だと設備投資が増えることもあってあまり汎用的ではない気もする。どうするのだろう？

向かって左にMax Series GPU、右にStorageとXeon MAXを置く構造。2U位の高さがあれば空冷で行けそうな気もする

一番上の2枚はMax Series GPUを搭載しない、Xeon MAXだけのブレード。次の2枚がMax Series GPU＋Xeon MAX、その下の2段は空冷用のソリューションかもしれない(上の4枚は間違いなく液冷だろう)

　連載635回で紹介したNNSAのCTS-2やリリースにも名前が出ていた京都大学学術情報メディアセンター、あるいはロスアラモス国立研究所のCrossroadなど、あちこちにXeon MAXをベースとしたシステムが納入されることはすでに明らかにされており、そうしたいくつかのサイトのどれかの写真の可能性が高い。

　ちなみにFrontierの導入に先立って、128ノードの小規模な先行開発向けであるSunspotというシステムがアルゴンヌ国立研究所に導入され、2022年末から稼働を開始するとしている。

　このSunspotは時期的に言っても、製品版のXeon MAXではなくPRQのものを利用して構築され、後で製品版に置き換えるという形をとるように思われる。

　それにしても、ここまで引っ張ってまだ稼働していない、というのは正直びっくりである。Auroraのフル構成は無理にしてもSunspotを利用してのLINPACK測定はそう難しくないだろうに、そのSunspotすらTOP500にエントリーされていないというのは、Sunspotを構築するのに必要な数のXeon MAXが十分に手当てできない、という裏返しでもある。

　もともとXeon MAXはそれぞれのタイルのダイサイズが400mm²クラスという、かなり巨大なダイであり、決して量が取れる構成ではない。本格量産がスタートした時点でどの程度供給されるか、少し不安に感じる話ではある。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ