メモリーアクセスの頻度によって性能が変わる
一連のANSYS Fluentの結果でわかるのは、「なんでも一律に性能が上がるわけではない」ということだ。要するにL3を96MBまで増量した結果、メモリーアクセスが多く発生するケースでL3 Hitの確率が増え、その分メモリーアクセスが削減でき、性能が上がるという仕組みであるのだが、以下のように、見かけ上性能向上がそれほど大きくないケースもある。
- メモリーアクセスが少ない=Milanの32MB L3でもそこそこHitする→性能改善の効果が薄い(例えば2M個の要素を持つ飛行機のaircraft_2mの場合)
- メモリアクセスが多すぎる=Milan-Xの96MB L3でもあふれてしまう→性能改善の効果が薄い(例えばF1のレーシングカーのモデリングやガスタービンの燃焼器の128VMの場合)
その一方で、96MB L3がうまくサイズ的にマッチするケース(例えばF1のレーシングカーのモデリングの64VM)では大きな性能向上が期待できるわけで、このあたりは実施するアプリケーションがどの程度メモリーアクセスを行なうかにかかっている。
下の画像はOpenFOAM v.1912の例だが、やはり1VMだとMilanでもそこそこL3が足りているようで性能向上はそう大きくないし、32VMでは逆にMilan-XでもL3が足りなくなるようで、結果として性能向上が大きくないが、8VMあたりだと大きく性能を向上させているあたりは、やはりデータ量とのバランスに依存することになる。
とはいえ、32VMの場合でも12%程の性能向上が余分な消費電力増がほとんどなしに実現できているあたりは、やはりL3増量の効果は大きいというべきか。
次の画像はSiemensのSimcenter Star-CCM+での結果である。こちらではあまり顕著な差がないというか、じわじわ差が広がっていく感じになっているが、1VMではMilan比で7%ほどの改善でしかないのが、128VMでは18.5%まで差が広がるあたりは、ワークロードが重いケースでの性能改善が著しいということになる。
次はWRF(The Weather Research & Forcasting model)という気象予測モデルのシミュレーションを使い、2.5Kmグリッドで予測した際の性能である。
こちらはMilan vs Milan-Xというわかりやすい構図であるが、やはり8VMあたりが一番性能が高く24%の向上。1VMでは8%でしかないが、64VMでも14%ほど向上するあたりは、ワークロードが高くてL3が溢れるようなケースでも、一定の性能向上が得られることを示している。
最後がNAMDという分子動力学シミュレーションで、こちらだとメモリーアクセスよりもむしろ演算性能そのものが問題になるのか、VMの数と性能向上があまり関係ない感じになっているが、それでも2~3%の性能改善がみられるとしている。
なお、F1レーシングカーモデリングの演算効率(この場合演算性能/コスト)を算出した結果が下の画像である。
Milanをベースとした数字であるが、Cloudの場合は当然VMの数を増やすと、その分コストが余分にかかる。特にMilanの場合はVMを増やすと相対的にメモリーアクセスが増え、その分実効性能が落ちる結果になっていたが、これがMilan-Xでは大幅に改善された結果、性能は1VM vs 64VMでは128倍になりながら、VMあたりの演算コストそのものは半分に減ったことを表している。
NAMDのようにあまり効果がないものもあるが、CFDなどでは大きな効果があるということも示されたわけで、大量のデータを扱うHPC向けのワークロードでは効果が期待できそうである。
さすがにFrontierはまだ納入の途中ということで、2021年11月のTOP500リストには実行結果などが含まれていないが、2022年6月のリストには入ることは間違いないはずなので、結果が楽しみである。
余談だがその2021年11月のリストには、すでに納入が終わったPerlmutterの結果が示されている。ランキングでは5位でしかないが、例えば4冠を守った富岳が763万848コアの2万9899KWで44万2010TFlopsなのに対し、Perlmutterはわずか76万1856コア、2589KWで7万870TFlopsを実現しており、効率という意味ではPerlmutterの方がずっと高い。
もちろんNVIDIAのA100を大量に実装したPerlmutterと、A64FXだけの富岳を同列で比較するのは間違っているのだが、Milan-XにRadeon Instinct MI250XというFrontierはPerlmutterと似た構成だけに、結果が楽しみである。
この連載の記事
-
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ