メモリーアクセスの頻度によって性能が変わる
一連のANSYS Fluentの結果でわかるのは、「なんでも一律に性能が上がるわけではない」ということだ。要するにL3を96MBまで増量した結果、メモリーアクセスが多く発生するケースでL3 Hitの確率が増え、その分メモリーアクセスが削減でき、性能が上がるという仕組みであるのだが、以下のように、見かけ上性能向上がそれほど大きくないケースもある。
- メモリーアクセスが少ない=Milanの32MB L3でもそこそこHitする→性能改善の効果が薄い(例えば2M個の要素を持つ飛行機のaircraft_2mの場合)
- メモリアクセスが多すぎる=Milan-Xの96MB L3でもあふれてしまう→性能改善の効果が薄い(例えばF1のレーシングカーのモデリングやガスタービンの燃焼器の128VMの場合)
その一方で、96MB L3がうまくサイズ的にマッチするケース(例えばF1のレーシングカーのモデリングの64VM)では大きな性能向上が期待できるわけで、このあたりは実施するアプリケーションがどの程度メモリーアクセスを行なうかにかかっている。
下の画像はOpenFOAM v.1912の例だが、やはり1VMだとMilanでもそこそこL3が足りているようで性能向上はそう大きくないし、32VMでは逆にMilan-XでもL3が足りなくなるようで、結果として性能向上が大きくないが、8VMあたりだと大きく性能を向上させているあたりは、やはりデータ量とのバランスに依存することになる。
とはいえ、32VMの場合でも12%程の性能向上が余分な消費電力増がほとんどなしに実現できているあたりは、やはりL3増量の効果は大きいというべきか。
次の画像はSiemensのSimcenter Star-CCM+での結果である。こちらではあまり顕著な差がないというか、じわじわ差が広がっていく感じになっているが、1VMではMilan比で7%ほどの改善でしかないのが、128VMでは18.5%まで差が広がるあたりは、ワークロードが重いケースでの性能改善が著しいということになる。
次はWRF(The Weather Research & Forcasting model)という気象予測モデルのシミュレーションを使い、2.5Kmグリッドで予測した際の性能である。
こちらはMilan vs Milan-Xというわかりやすい構図であるが、やはり8VMあたりが一番性能が高く24%の向上。1VMでは8%でしかないが、64VMでも14%ほど向上するあたりは、ワークロードが高くてL3が溢れるようなケースでも、一定の性能向上が得られることを示している。
最後がNAMDという分子動力学シミュレーションで、こちらだとメモリーアクセスよりもむしろ演算性能そのものが問題になるのか、VMの数と性能向上があまり関係ない感じになっているが、それでも2~3%の性能改善がみられるとしている。
なお、F1レーシングカーモデリングの演算効率(この場合演算性能/コスト)を算出した結果が下の画像である。
Milanをベースとした数字であるが、Cloudの場合は当然VMの数を増やすと、その分コストが余分にかかる。特にMilanの場合はVMを増やすと相対的にメモリーアクセスが増え、その分実効性能が落ちる結果になっていたが、これがMilan-Xでは大幅に改善された結果、性能は1VM vs 64VMでは128倍になりながら、VMあたりの演算コストそのものは半分に減ったことを表している。
NAMDのようにあまり効果がないものもあるが、CFDなどでは大きな効果があるということも示されたわけで、大量のデータを扱うHPC向けのワークロードでは効果が期待できそうである。
さすがにFrontierはまだ納入の途中ということで、2021年11月のTOP500リストには実行結果などが含まれていないが、2022年6月のリストには入ることは間違いないはずなので、結果が楽しみである。
余談だがその2021年11月のリストには、すでに納入が終わったPerlmutterの結果が示されている。ランキングでは5位でしかないが、例えば4冠を守った富岳が763万848コアの2万9899KWで44万2010TFlopsなのに対し、Perlmutterはわずか76万1856コア、2589KWで7万870TFlopsを実現しており、効率という意味ではPerlmutterの方がずっと高い。
もちろんNVIDIAのA100を大量に実装したPerlmutterと、A64FXだけの富岳を同列で比較するのは間違っているのだが、Milan-XにRadeon Instinct MI250XというFrontierはPerlmutterと似た構成だけに、結果が楽しみである。
この連載の記事
-
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ - この連載の一覧へ