ロードマップでわかる!当世プロセッサー事情 第569回
性能が70%向上するCooper Lakeと200Topsの性能を持つPonte Vecchio インテル CPUロードマップ
2020年06月29日 12時00分更新
AI向けプロセッサーの話が細切れになってしまって恐縮だが、今回はやっと出荷されたCooper Lakeと、それとGPUであるXe/Ponte Vecchioのアップデートを説明したい。
Xeon E7 v4から7~8割増しの性能
Copper Lake
Cooper Lakeの発表内容はジサトライッペイ氏の記事にまとまっている。基本的にCooper LakeはCascade Lakeに少しだけ手を加えた派生型である。手を加えたのは以下のの3点となる。
- BFloat16のサポートを追加
- 動作周波数を若干引き上げ
- メモリーコントローラーを高速化(一部SKUでDDR4-3200のサポートを追加)したほか、第2世代Optane Persistent Memoryをサポート
このうちBFLOAT16に関してはAVX512ユニットそのものを拡張して、16bit FLOATをサポートする(AVX512_BF16)という、ある意味真っ当な実装になった。
ただこの実装はIce Lakeのインプリメントの「後」で始まったらしく、少なくともIce Lake世代ではサポートされていない。これが次のIce Lake-SPでサポートされるかどうかは今のところ不明である。スケジュール的に言えばIce Lake-SPでAVX512_BF16をサポートするチャンスはありそうに思う。そのBFLOAT16周りの性能比較として示されているのが下の画像だ。
Xeon E7 v4を1.0とした時、TrainingにCooper LakeをFP32で使うと1.82、FB16で使うと3.14ということで、さすがに2倍にはならないものの72%ほど高速化が図れているとする。
Inferenceでは2.04→3.66なので79%ほどの高速化で、7~8割程度となる。演算ユニット的に言えば、FP32だとAVX512では1サイクルあたり16個のデータに対して演算可能なのが、BFLOAT16では32個で倍増するわけで、ピーク性能は2倍になる計算だが、その一方でデータ移動などのハンドリングの手間も増えるため、そうしたオーバーヘッドを加味すると8割弱の向上は妥当な数字だろう。
次にメモリーについて。下の画像にもあるように、Xeon Platinumは、1DPCの場合に限りDDR4-3200がサポートされた。一応Registered DIMMではあるのだが、それでも安定動作を念頭に置くと2DPCでDDR4-3200のサポートは無理だったようだ。
そして、Xeon Platinum 8380HL/8376HLとXeon Gold 6328HLという、末尾にLが付く製品のみ、最大メモリー搭載量が4.5TBに跳ね上がっている。これは、同時に発表されたOptane Persistent Memory 200シリーズを併用した場合の数字となっている。
この第2世代Optane Persistent Memoryは、128/256/512GBの容量のものがラインナップされており、512GBのものを各メモリーチャネルに1枚づつ装着すると6chで3TBになる。各チャネルの余ったもう1スロットに256GB DDR4-2933 DIMMを装着すると、こちらが合計で1.5TB。トータルで4.5TBとなる計算である。
もっとも容量そのものは第1世代のOptane Persistent Memoryも最大512GBなので、これをサポートしたCascade Lakeベースの、例えばXeon Platinum 8280Lも最大メモリー容量は4.5TBなので、この部分での差はない。
では第2世代Persistent Memoryはなにが良いのか? ということで下表に差異を簡単にまとめてみた。
第1世代と第2世代Persistent Memoryの違い | |||||||
---|---|---|---|---|---|---|---|
容量 | 128GB | 256GB | 512GB | ||||
世代 | 第1世代 | 第2世代 | 第1世代 | 第2世代 | 第1世代 | 第2世代 | |
耐久性(PBW) | 100% WRITE 256B | 292 | 292 | 363 | 497 | 300 | 410 |
100% WRITE 64B | 91 | 73 | 91 | 125 | 75 | 103 | |
帯域(GB/s) | 100% READ 256B | 6.80 | 7.45 | 6.80 | 8.10 | 5.30 | 7.45 |
100% WRITE 256B | 1.85 | 2.25 | 2.30 | 3.15 | 1.89 | 2.60 | |
100% READ 64B | 1.70 | 1.86 | 1.75 | 2.03 | 1.40 | 1.15 | |
100% WRITE 64B | 0.45 | 0.56 | 0.58 | 0.79 | 0.47 | 0.65 |
まず耐久性はPBW(Peta Bytes Written)で示すが、要するにどの程度書き込むと寿命が来るかという数値である。フラッシュメモリーベースのSSDでは、これが1.0~1.5PBWが寿命であるが、Optane Memoryベースということで100倍以上寿命が長い。128GB品を除くと第2世代はさらに寿命が増えている。
帯域は256Byteと64Byteの単位で、それぞれリード/ライトを行なった場合の実質的なアクセス帯域だが、それぞれ多少増えていることがわかる。ドラマチックに2倍以上にはならないが、それなりに性能が向上している。
最後に動作周波数についてだが、これはイッペイ氏の記事にもあるように2~3binほど向上している。ただAVX512_BF16の追加もあってか、消費電力はさらに上がっており、損得勘定を考えると難しいところである。
ところでこのCooper Lake、もともと広く一般に販売するというよりは、特定顧客向けになるという話が出ていた。フタを開けてみると、4Sないし8S向け「のみ」となっており、こうなると本当に特定の顧客以外は使いそうにない構成になっている(現在の主流は1~2ソケットサーバー)。
またコア数も最小で16というあたり、おそらくCooper LakeはLCC(Large Core Count)のダイしか存在しないものと思われる。また、モノがモノだけに、Xeon W向けの展開の可能性も非常に低そうだ。
この連載の記事
-
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ