ロードマップでわかる!当世プロセッサー事情 第767回
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ
2024年04月15日 12時00分更新
第6世代Xeon ScalableがXeon 6に名称変更
次はXeonの話。現在出荷中のEmerald Rapidsに続き、EコアのみのSierra Forestと、PコアのみのGranite Rapidsが現在開発中という話は連載736回で報じたわけだが、そのSierra ForestとGranite Rapidsが"6th Gen Xeon Scalable"ではなく、Xeon 6というブランドになることが今回発表された。
基調講演ではそのSierra ForestのウェハーとGranite Rapidsのウェハーも披露された。
Sierra Forestのウェハー。連載737回で説明したようにSierra Forestは横長のタイルとなるが、それがこの写真からもわかる
いつものように無理やり歪みを取って比率の補正をしたのが下の画像で、300mmウェハーで11.5×13.2個ほど。ダイの寸法は26.1×22.7mmといった感じで、写真からの推定面積は592mm2前後。実際には600mm2前後というあたりと想像される。
まだGranite Rapidsのタイル構成などは不明だが、おそらく2つということはなく、XCC構成ではまた4 タイルになりそうである。
さて、今回はまだそのXeon 6のSKUや性能の詳細など細かい話は一切開示されていない。Eコア、つまりSierra Forestであるが、こちらは性能/消費電力比が2.4倍、ラックあたりの性能で言えば2.7倍になるという説明があった。
このラック当たりの性能ということで出てきた説明が下の画像で、200サーバーラックの第2世代インテルXeonプロセッサーと、72サーバーラックのEコアベースのXeon 6が同等の性能で、しかも消費電力が1MW少ない、としている。
比較対象が第2世代Xeon、つまりCascade Lake世代である。この世代の場合、Xeon 9200という例外(MCM構造で2ダイを無理やり1パッケージ化したもので、プラットフォームの互換性はない)を別にすると、コア数は最大28コアになっている。一方Sierra Forestは最大288コアなので、コア数は10倍になっている。
さて、サーバーラックに何台のサーバーが搭載されているか? が明示されていないので単純に比較できないが、一般に企業向けのサーバーラックは供給電力がだいたい12KW程度とされる。3U構成の2 ソケットサーバーが700~800W程度(最近は1KWを超えるのが当たり前で、ラックあたりの供給電力も20KWを超えるものが増えてきたが、これはおいておく)で、台数で言えば12~14台程度となる。
とりあえず14台と想定すると、200サーバーラックの第2世代Xeonのコア数は200×14×2×28=15万6800コアとなる。同様の想定で72サーバーラックのSierra Forestの方は72×14×2×288=58万608個。要するにコア数そのものはSierra Forestの方が3.7倍も多い計算になる。逆に言えばコアあたりの性能はCascade Lakeの約4分の1でしかない。Cascade Lakeということは、基本的な部分はSkylakeと同じで、VNNIが追加された程度の差しかないことになる。
連載737回で説明したように、Sierra ForestのコアはほぼGracemontと同等であるが、その元となるTremontコアはSkylakeと比較して、同一消費電力なら40%高速、同一速度なら40%省電力という説明がIntel Architecture Day 2021であった。
連載629回より抜粋。同じ動作周波数なら40%消費電力が少なく、同じ消費電力なら動作周波数が40%高性能だとする
もっとも今回の場合はシングルスレッド性能というよりもマルチスレッド性能であって、比較のグラフは下の画像が適切なのかもしれないが、Skylakeの2倍のコア数なら同一消費電力で動作周波数が80%高い、あるいは同一周波数で消費電力が80%低いことになる。が、今回の性能を見るとコア数が3.7倍で同等になる。
また消費電力についても、Cascade LakeからSierra Forestにすることで128ラックを削減でき、これが1MWという計算になるので、ラック当たりで言えば7.8KWほどになるが、これは正しくない。例えばCascade Lakeの世代ではラックあたり12KWで、200ラックで2.4MW。対してSierra Forestではラック当たり20KWで72ラックで1.44MW。差引0.96MWの削減といった感じの計算になるだろう。
つまりサーバー1台あたりの消費電力で言えば、おそらくSierra Forestの方が多いだろう。といっても、コアあたりの消費電力は確かに大幅に小さくなっていると想像されるが。
性能が伸びない理由だが、1つ考えられるのはメモリー帯域不足だろうか? Cascade Lake世代は28コアに対してDDR4-2933×6chで140.784GB/秒なので、コアあたりのメモリー帯域は5GB/秒ほど。対してSierra ForestベースのXeon 6は、まだMRDIMMに未対応なので288コアに対してDDR5-5600×12で、537.6GB/秒。コアあたりのメモリー帯域は1.87GB/秒と半分未満である。
もっとも、多くのコアがメモリー待ちになる=コアの動作周波数がそれほど高くならない(高くしてもメモリー待ちが長くなるだけなので、結局下がる)=性能/消費電力比が向上する、ということなのかもしれない。
Sierra Forestは一般的用途からスケールアウト/高密度向けという話は以前もあったので、この性格そのものはこれで問題ないのかもしれないが、メモリー負荷が高いアプリケーションには向かない感じが見て取れる。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ


















