インテルのロードマップアップデートも一段落しており、次は10月末に開催されるIntel Innovation待ちである。実を言えば海外ではぼちぼちLGA 1700対応のマザーボードの話が出てきたりしてはいるのだが、まだ製品発表には遠そうだ。
それはともかくとして、ここにきてHPC関係の話がいろいろ出てきたので、今回はこれをまとめてご紹介しよう 。
AMDがHPCの性能効率を
2025年までに30倍にすると発表
9月29日、AMDは2025年までにHPCおよびAIワークロードの性能効率を30倍にすると発表した。これは2020年時点のプラットフォームなので第2世代EPYCと比較して、2025年のプラットフォームでは性能/消費電力比を30倍に引き上げるという話である。ちなみに組み合わせられるGPUは、Radeon Instinct MI100なのか、その前世代製品であるRadeon Instinct MI50なのかははっきりしない。
この30倍、実はAI向けに関して言えばそれほど難しくはない。そもそもEPYCにしてもRadeon InstinctにしてもAI向けという観点で言えばまだ未対応という方が正確であって、BF16へのサポートこそ追加されたもののまだ効率的にAI処理を行なうような仕組みは搭載されていない。
インテルで言えばVNNIやXe Coreに搭載されたMatrix Engineに相当する仕組みであって、これを搭載すれば現状の10倍くらいの効率を達成するのはそう難しくない。というより、現状が低すぎるというべきだろう。
これとプロセス微細化や回路の改良などを積み重ねていけば、30倍は(簡単とは言わないが)達成可能だろう。むしろ難しいのはHPC分野であって、それこそインテルのAMXに相当する大規模なMatrix Engineなどのアクセラレーターを考慮する必要がある。
現状CDNAにはインテルのXeのMatrix Engineや、NVIDIAのTensor Coreにあたるものが実装されていないので、このあたり(おそらくはNVIDIAのTensor Core Gen2に近い、FP64の行列演算が可能なもの)を実装してくる形で対応すると思われる。
さらに余談であるが、AMDがVNNIをサポートするかどうか、現状ではやや疑わしい。というのはVNNIはAI向けミドルウェアとしてはOpenVINOおよびoneAPIに事実上紐付いてしまっているからで、oneAPIはともかくOpenVINOをAMDがサポートできるか? という話になるからだ。したがって、独自実装の形でAIアクセラレーター命令を搭載し、それをROCm経由で利用できる、という形になりそうな気がする。
AMDが発表した構成がFrontierに酷似
そこからFrontierのノード構成を推定
さて、ここまでの話は単に枕である。その性能効率30倍に関してAMDのSVP兼研究員であるSam Naffziger氏の説明があったのだが、そのNaffziger氏が説明に利用したスライドの1枚が下の画像だ。左の図を拡大したのがその下の画像である。
これが何か? というと「単なる一例」とされそうだが、AMDとCray(現HPE)が2022年にオークリッジ国立研究所に納入するスーパーコンピューターFrontierのノードがやはり1×EPYC+4×Radeon Instinct構成になる。

こちらはオークリッジ国立研究所のFrontierのページに掲載されている“NODE Diagram”のもの
このノードの構成が先の構図に酷似しているあたりは、どう見てもNaffziger氏の画像はFrontierの構成をベースにしていると考えざるを得ない。
これを前提に、Frontierのノード構成を推定したのが下図になる。まずEPYCはまだGenoaは間に合わないので、実際にはMilanベースになるだろう。というより、最終構成はGenoaベースになるのかもしれないが、2021年の納入時にいきなりGenoaベースはかなり無理がある。
図ではDDR5メモリーを接続する形態になっているが、これもMilanベースの当初納入時はDDR4ベースで、あとからGenoaベースに更新される際にDDR5ベースにボードごと切り替わるものと思われる。Frontierの稼働に関するタイムラインは連載510回で説明したが、2021年後半から2022年前半にインストールして、稼働は2022年後半である。
ということは、とりあえずはMilanベースでシステムを稼働させ、途中でプロセッサボードを順次Genoaベースに更新していくという方法はアリである。
その一方でRadeon Instinctは少なくとも現在のMI100とはまったく違うカスタム版になると考えられる。こちらは少なくともI/Fとして以下の構成を取ると思われる。
- Infinity Fabricが6本
- CCIXとして利用できるPCIe Gen4 x16レーンが2本
- PCIe Gen4 x16レーンが1本

この連載の記事
-
第814回
PC
インテルがチップレット接続の標準化を画策、小さなチップレットを多数つなげて性能向上を目指す インテル CPUロードマップ -
第813回
PC
Granite Rapid-DことXeon 6 SoCを12製品発表、HCCとXCCの2種類が存在する インテル CPUロードマップ -
第812回
PC
2倍の帯域をほぼ同等の電力で実現するTSMCのHPC向け次世代SoIC IEDM 2024レポート -
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート - この連載の一覧へ