インテルがCTS-2を受注
ベースとなるのはSapphire Rapids
HPC分野では苦戦が続くインテル。米エネルギー省の科学技術計算施設NERSCにあるPerlmutterに加え、Auroraのためのアプリケーション開発に利用されるアルゴンヌ国立研究所のPolarisまでAMD/NVIDIA連合に持っていかれたのは、アプリケーション開発として「本当にいいのか?」という気がしてくる。
実際ALCF(Argonne Leadership Computing Facility)のPolarisのページを見ると下の表が出ているが、いくら似ているとは言え、例えばIntel MPIやMath Libraryなどのわりと肝心なモノが互換性がないのはどうか、という気がしてならない。こうした話はインテルにとっては屈辱モノではあるのだが、CTS-2の受注で一矢報いた格好になる。
CTS(Commodity Technology Systems)の話はまず連載286回で、もう少し詳しい話を連載347回でしているが、要するに技術的に冒険の少ない、確実に稼働する(ただしコストもその分安い)汎用のシステムである。
これの前身は連載347回で紹介したTLCC(Tri-lab Linux Capacity Cluster)で、アルゴンヌ/ロスアラモス/サンディアの3つの国立研究所で共同導入するLinuxクラスターである。
連載347回はTLCC-1とTLCC-2まで触れたが、これに引き続き導入予定だったTLCC-3が、CTS-1に名前を変え、2015年10月にPenguin Computingと契約を締結している。導入は2016年4月からスタートし、2018年9月までに完了しているが、これはそもそもクラスターであって、1つのシステムではない。実際2016年11月のTOP500では以下の7つのシステムがCTS-1として登録されている。
2016年11月のTOP500に登録されているCTS-1 | ||||||
---|---|---|---|---|---|---|
順位 | 設置場所 | システム | ||||
42位 | LLNL/NNSA | CTS-1 Jade | ||||
43位 | LLNL | CTS-1 Quartz | ||||
67位 | LANL | CTS-1 Grizzly | ||||
85位 | SNL/NNSA | CTS-1 Serrano | ||||
86位 | SNL/NNSA | CTS-1 Cayenne | ||||
90位 | LANL/NNSA | CTS-1 Fire | ||||
91位 | LANL/NNSA | CTS-1 Ice | ||||
169位 | SNL | CTS-1 Dark Ghost |
要するに同じ基本構成で、あとはノード数や細かな部分だけをカスタマイズして3つの研究所に導入、適時ネットワークを利用して大規模クラスターを組んだり分散利用したりできるものだ。これは便利に利用されていたが、さすがにXeon E5 v4(Haswell-EP)では性能面での力不足も多く、稼働時間も長くなってきたということでぼちぼち廃止が近くなってきた。
この代替システムとしてNNSAがCTS-2のRFP(プロポーザル要求)を出し、これに複数企業が応募していたわけだが、最終的にDell Technologyがこれを受注することになった。
このCTS-2は2022年中旬から導入が始まり、2025年中に完了予定(これに合わせてCTS-1は順次退役)であるが、このDellのマシンはインテルのSapphire Rapidsをベースとしたものになることが発表された。Ponte Vecchioを絡めない分、確実に納入できるであろうというあたりは、なんとかHPCへの足掛かりを残した格好だ。
ちなみにAMDではなくインテルベースのシステムで受注できた理由であるが、1つには現在のCTS-1上で動くアプリケーションには少なからずIntel MKL(Math Kernel Library:算術演算ライブラリー)を使ったものがあり、これらはインテルロック(AMDのプロセッサーでは動かない)がかかっているあたりも挙げられるかもしれない。ALCFのPolarisページにある表でMath LibraryにIntel MKLの名前が挙がっていないあたり、このあたり根深いものがあることがおわかりいただけよう。
この連載の記事
-
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ -
第786回
PC
Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ - この連載の一覧へ