メモリーアクセスの頻度によって性能が変わる
一連のANSYS Fluentの結果でわかるのは、「なんでも一律に性能が上がるわけではない」ということだ。要するにL3を96MBまで増量した結果、メモリーアクセスが多く発生するケースでL3 Hitの確率が増え、その分メモリーアクセスが削減でき、性能が上がるという仕組みであるのだが、以下のように、見かけ上性能向上がそれほど大きくないケースもある。
- メモリーアクセスが少ない=Milanの32MB L3でもそこそこHitする→性能改善の効果が薄い(例えば2M個の要素を持つ飛行機のaircraft_2mの場合)
- メモリアクセスが多すぎる=Milan-Xの96MB L3でもあふれてしまう→性能改善の効果が薄い(例えばF1のレーシングカーのモデリングやガスタービンの燃焼器の128VMの場合)
その一方で、96MB L3がうまくサイズ的にマッチするケース(例えばF1のレーシングカーのモデリングの64VM)では大きな性能向上が期待できるわけで、このあたりは実施するアプリケーションがどの程度メモリーアクセスを行なうかにかかっている。
下の画像はOpenFOAM v.1912の例だが、やはり1VMだとMilanでもそこそこL3が足りているようで性能向上はそう大きくないし、32VMでは逆にMilan-XでもL3が足りなくなるようで、結果として性能向上が大きくないが、8VMあたりだと大きく性能を向上させているあたりは、やはりデータ量とのバランスに依存することになる。

OpenFOAMもやはり流体解析のソフトである。これは28M要素のオートバイの解析のケースである
とはいえ、32VMの場合でも12%程の性能向上が余分な消費電力増がほとんどなしに実現できているあたりは、やはりL3増量の効果は大きいというべきか。
次の画像はSiemensのSimcenter Star-CCM+での結果である。こちらではあまり顕著な差がないというか、じわじわ差が広がっていく感じになっているが、1VMではMilan比で7%ほどの改善でしかないのが、128VMでは18.5%まで差が広がるあたりは、ワークロードが重いケースでの性能改善が著しいということになる。

Simcenter STAR-CCM+もまた、流体解析のソフトである。今回は要素数100Mのル・マン出場車(やはりレーシングカー)での例である
次はWRF(The Weather Research & Forcasting model)という気象予測モデルのシミュレーションを使い、2.5Kmグリッドで予測した際の性能である。
こちらはMilan vs Milan-Xというわかりやすい構図であるが、やはり8VMあたりが一番性能が高く24%の向上。1VMでは8%でしかないが、64VMでも14%ほど向上するあたりは、ワークロードが高くてL3が溢れるようなケースでも、一定の性能向上が得られることを示している。

WRFはNCAR(National Center for Atmospheric Research:アメリカ大気研究センター)が提供する気象予測のシミュレーション用モデルである。現時点での最新版はV4.2.2なので、やや古い結果である
最後がNAMDという分子動力学シミュレーションで、こちらだとメモリーアクセスよりもむしろ演算性能そのものが問題になるのか、VMの数と性能向上があまり関係ない感じになっているが、それでも2~3%の性能改善がみられるとしている。

NAMDはイリノイ大学アーバナ・シャンペーン校のTCB(Theoretical and Computational Biophysics Group)などによって提供されるシミュレーション。これは1M個の原子のシミュレーションを行なった場合の性能を比較している
なお、F1レーシングカーモデリングの演算効率(この場合演算性能/コスト)を算出した結果が下の画像である。

VMを増やすことで効果的に性能が上がるので、1VMでやった場合に比べ、64VMでは127分の1の時間で処理が完了し、支払うコストは半分になる(料金はVMの数×VMの使用時間なので、VMの数は64倍でも時間が1/127になることで半減する)という話である
Milanをベースとした数字であるが、Cloudの場合は当然VMの数を増やすと、その分コストが余分にかかる。特にMilanの場合はVMを増やすと相対的にメモリーアクセスが増え、その分実効性能が落ちる結果になっていたが、これがMilan-Xでは大幅に改善された結果、性能は1VM vs 64VMでは128倍になりながら、VMあたりの演算コストそのものは半分に減ったことを表している。
NAMDのようにあまり効果がないものもあるが、CFDなどでは大きな効果があるということも示されたわけで、大量のデータを扱うHPC向けのワークロードでは効果が期待できそうである。
さすがにFrontierはまだ納入の途中ということで、2021年11月のTOP500リストには実行結果などが含まれていないが、2022年6月のリストには入ることは間違いないはずなので、結果が楽しみである。
余談だがその2021年11月のリストには、すでに納入が終わったPerlmutterの結果が示されている。ランキングでは5位でしかないが、例えば4冠を守った富岳が763万848コアの2万9899KWで44万2010TFlopsなのに対し、Perlmutterはわずか76万1856コア、2589KWで7万870TFlopsを実現しており、効率という意味ではPerlmutterの方がずっと高い。
もちろんNVIDIAのA100を大量に実装したPerlmutterと、A64FXだけの富岳を同列で比較するのは間違っているのだが、Milan-XにRadeon Instinct MI250XというFrontierはPerlmutterと似た構成だけに、結果が楽しみである。

この連載の記事
-
第813回
PC
Granite Rapid-DことXeon 6 SoCを12製品発表、HCCとXCCの2種類が存在する インテル CPUロードマップ -
第812回
PC
2倍の帯域をほぼ同等の電力で実現するTSMCのHPC向け次世代SoIC IEDM 2024レポート -
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート - この連載の一覧へ