ES45というマシン3000台で
30TFLOPSを実現する計画
結果的にCOMPAQは、晴れてASCI Qという名称で30TFLOPSのプロジェクトを受注できた。そこでAlpha GS320をベースにこのシステムを構築する予定だった。ベースとなるのは、AlphaServer ES45と呼ばれる4プロセッサー/最大32GBメモリーの8Uラックタイプマシンである。
ES45の内部は下の画像のように、4つのCPUと最大32GBのメモリー、それとPCIバスがチップセット(スイッチ)につながっている形である。このES45 1台あたりの性能は、1.25GHz駆動だと10GFLOPSになるので、30TFLOPSを実現するためにはES45が3000台あればいい計算になる。
Alpha GS320 Serverは、8つのAlphaServer ES45を専用のグローバルスイッチで接続する仕組みになっており、これが375台インストールされることで375×32=1万2000CPUで30TFLOPSというわけだ。
さて、これをどうつなげるかが次の問題であるが、COMPAQは当時Quadrics社のNetwork(QsNet)を利用していた。このQsNet用のアダプターはElanと呼ばれ、ES45の64bit/66MHz PCIバスに装着される。
これと対を成すのはEliteと呼ばれるスイッチで、8本のリンクを持つことができる。このEliteでFat-treeの構造を形成する形で、AlphaServer ES45同士を接続した。
Eliteそのものは8本のリンクを持ち、4up/4downの構成だが、2/3段目のTreeのノードにはこれでは足りないため、Eliteそのものを複数組み合わせて2段目は16up/16down、3段目は64up/64downという強烈なスイッチを作り上げている。
当然ながらあまり性能はよろしくなく、例えば帯域は128ノードあたりまでは250MB/秒以上を維持できているのが、そこから急激に悪化して1024ノードでは100MB/秒そこそこになる。
ノード間で同期を取るバリアの処理を行なう場合、ハードウェアベースでは1024ノードで10マイクロ秒そこそこだが、ソフトウェアベースでは30マイクロ秒を要するなど、ノード数が増えると性能が急激に悪化することが確認されている。
20TFLOPS止まりに終わったASCI Q
核実験以外の用途に転用するも戦力外通告
ASCI Qの問題はもっと根本的なところにあった。2001年6月、COMPAQはAlphaプロセッサーの開発を2004年までに中止するとともに、同社のソフトウェア資産をItaniumに移行することを発表した(関連リンク)。この結果として、当初発表されていた、EV7/8ベースのシステムで100TFLOPSという計画が怪しくなった。
翌2002年の6月、ロスアラモス国立研究所の内部から、ASCI Qが予定通り進んでいないことが匿名で告発された。本来なら10TFLOPSにあたる、1.25GHzのEV68が1024ノード(4096プロセッサー)インストールされているべきだったが、実際には1GHzのEV68が納入されており、8TFLOPS相当の性能でしかないというものだった。
この時にロスアラモス国立研究所のスポークスマンは、これは3段階に分かれた納入の第一弾であり、2002年末までには30TFLOPSのマシンが設置されるとしていた。
ただこの後もスケジュール通りにはインストールが進まず、2004年度の国家核安全保障局の予算要求の中で、それとなくASCI Qのスケジュールが遅れているが、最終的には30TFLOPSのマシンを設置することが示されていた。
ところが2005年度の要求では、“20TFLOPSのASCI Qが運用される”に変わってしまった。要するにCOMPAQは20TFLOPS分のマシンしか納入することが出来なかったわけだ。
一体なにがあったのかをここから読み取るのは困難だし、Delivering Insight ASCIに至っては、まるで初めから30TFLOPSの計画はなかったかのように「2000年には20TFLOPSのピーク性能を持つASCI Qシステムがロスアラモス国立研究所にインストールされた」とさらっと流しているあたり、裏でどんな騒ぎになっていたのか考えるのも恐ろしい。最終的にASCI Qは2048node/8192プロセッサーで構成されて終わっている。
もっと悪いのは、そのASCI Qにしても、その前のASCI Blue Mountainにしても、実際はシステムの安定性が悪く、2002年の時点では使い物にならないと判断されていたらしいことだ。
2003年2月に国家核安全保障局は、「ロスアラモス国立研究所がW76トライデントSLBM(潜水艦発射弾道ミサイル)の3次元シミュレーションをASCI Blue Mountainで実施した」と発表したが、実際にはASCI Blue MountainからASCI Whiteにリモートで接続し、そこでシミュレーションを行なったというトリックは後になって明らかになっている。
つまりBlue Mountainの上ではASCIが目的とした核実験関係のアプリケーションはほとんど稼動せず、ASCI Qに移行させようがなかったらしい。またASCI Qの起動にはおおむね8時間を要したという数字もあり、なにかあるたびに8時間待たねばならないというあたりは稼働率を高く保つための妨げになったようだ。
性能面ではTOP500では2003年こそランキング2位を取れたものの、それがピークであった(ちなみにこの時のトップは地球シミュレータである)。
LINPACKでの13.88TFLOPSは理論性能の67.8%で、SMP構成のASCIマシンの中では比較的高い(ASCI Whiteも60%には達していない)が、地球シミュレータが87.5%(理論性能40.96TFLOPSに対して実効性能35.86TFLOPS)に達しているのと比較するとかなり見劣りする。
ちなみにロスアラモス国立研究所が2002年に出したカタログによれば、10.24TFLOPS構成の状態でLinpackベンチマークを実施したところ7.727TFLOPSの実効性能を発揮した(効率75.48%)としており、ネックがインターコネクトにあるのは明白だが、だからといってそう簡単に解決できる問題でもない。
それもあってか、2003年頃からロスアラモス国立研究所は「その他の用途」にもASCI Qが利用できることを積極的にアナウンスし始め、2005年にはロスアラモス国立研究所のDepartment of Theoretical Biology and Biophysicsに属するKevin Y. Sanbonmatsu博士がASCI Q上で、リボゾームの転写の動きを分子レベルでシミュレーションすることに成功したこと(関連リンク)などをアピールしたりしたが、すでに時遅しで、本質的な解決にはあまりつながらなかったようだ。
国家核安全保障局のAccomplishments(実績)というページを見ると、2003年度会計にしてすでにASCI Qは“retired from service”(現役引退)と恐ろしいことが書いてある。
運用そのものは2007年まで続いたが、肝心のASCIからはさっさと見切りをつけられてしまった形で、その意味では2億ドルをドブに捨てたと評されても文句は言えない気もする。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ