ES45というマシン3000台で
30TFLOPSを実現する計画
結果的にCOMPAQは、晴れてASCI Qという名称で30TFLOPSのプロジェクトを受注できた。そこでAlpha GS320をベースにこのシステムを構築する予定だった。ベースとなるのは、AlphaServer ES45と呼ばれる4プロセッサー/最大32GBメモリーの8Uラックタイプマシンである。
ES45の内部は下の画像のように、4つのCPUと最大32GBのメモリー、それとPCIバスがチップセット(スイッチ)につながっている形である。このES45 1台あたりの性能は、1.25GHz駆動だと10GFLOPSになるので、30TFLOPSを実現するためにはES45が3000台あればいい計算になる。
Alpha GS320 Serverは、8つのAlphaServer ES45を専用のグローバルスイッチで接続する仕組みになっており、これが375台インストールされることで375×32=1万2000CPUで30TFLOPSというわけだ。
さて、これをどうつなげるかが次の問題であるが、COMPAQは当時Quadrics社のNetwork(QsNet)を利用していた。このQsNet用のアダプターはElanと呼ばれ、ES45の64bit/66MHz PCIバスに装着される。
これと対を成すのはEliteと呼ばれるスイッチで、8本のリンクを持つことができる。このEliteでFat-treeの構造を形成する形で、AlphaServer ES45同士を接続した。
Eliteそのものは8本のリンクを持ち、4up/4downの構成だが、2/3段目のTreeのノードにはこれでは足りないため、Eliteそのものを複数組み合わせて2段目は16up/16down、3段目は64up/64downという強烈なスイッチを作り上げている。
当然ながらあまり性能はよろしくなく、例えば帯域は128ノードあたりまでは250MB/秒以上を維持できているのが、そこから急激に悪化して1024ノードでは100MB/秒そこそこになる。
ノード間で同期を取るバリアの処理を行なう場合、ハードウェアベースでは1024ノードで10マイクロ秒そこそこだが、ソフトウェアベースでは30マイクロ秒を要するなど、ノード数が増えると性能が急激に悪化することが確認されている。
20TFLOPS止まりに終わったASCI Q
核実験以外の用途に転用するも戦力外通告
ASCI Qの問題はもっと根本的なところにあった。2001年6月、COMPAQはAlphaプロセッサーの開発を2004年までに中止するとともに、同社のソフトウェア資産をItaniumに移行することを発表した(関連リンク)。この結果として、当初発表されていた、EV7/8ベースのシステムで100TFLOPSという計画が怪しくなった。
翌2002年の6月、ロスアラモス国立研究所の内部から、ASCI Qが予定通り進んでいないことが匿名で告発された。本来なら10TFLOPSにあたる、1.25GHzのEV68が1024ノード(4096プロセッサー)インストールされているべきだったが、実際には1GHzのEV68が納入されており、8TFLOPS相当の性能でしかないというものだった。
この時にロスアラモス国立研究所のスポークスマンは、これは3段階に分かれた納入の第一弾であり、2002年末までには30TFLOPSのマシンが設置されるとしていた。
ただこの後もスケジュール通りにはインストールが進まず、2004年度の国家核安全保障局の予算要求の中で、それとなくASCI Qのスケジュールが遅れているが、最終的には30TFLOPSのマシンを設置することが示されていた。
ところが2005年度の要求では、“20TFLOPSのASCI Qが運用される”に変わってしまった。要するにCOMPAQは20TFLOPS分のマシンしか納入することが出来なかったわけだ。
一体なにがあったのかをここから読み取るのは困難だし、Delivering Insight ASCIに至っては、まるで初めから30TFLOPSの計画はなかったかのように「2000年には20TFLOPSのピーク性能を持つASCI Qシステムがロスアラモス国立研究所にインストールされた」とさらっと流しているあたり、裏でどんな騒ぎになっていたのか考えるのも恐ろしい。最終的にASCI Qは2048node/8192プロセッサーで構成されて終わっている。
もっと悪いのは、そのASCI Qにしても、その前のASCI Blue Mountainにしても、実際はシステムの安定性が悪く、2002年の時点では使い物にならないと判断されていたらしいことだ。
2003年2月に国家核安全保障局は、「ロスアラモス国立研究所がW76トライデントSLBM(潜水艦発射弾道ミサイル)の3次元シミュレーションをASCI Blue Mountainで実施した」と発表したが、実際にはASCI Blue MountainからASCI Whiteにリモートで接続し、そこでシミュレーションを行なったというトリックは後になって明らかになっている。
つまりBlue Mountainの上ではASCIが目的とした核実験関係のアプリケーションはほとんど稼動せず、ASCI Qに移行させようがなかったらしい。またASCI Qの起動にはおおむね8時間を要したという数字もあり、なにかあるたびに8時間待たねばならないというあたりは稼働率を高く保つための妨げになったようだ。
性能面ではTOP500では2003年こそランキング2位を取れたものの、それがピークであった(ちなみにこの時のトップは地球シミュレータである)。
LINPACKでの13.88TFLOPSは理論性能の67.8%で、SMP構成のASCIマシンの中では比較的高い(ASCI Whiteも60%には達していない)が、地球シミュレータが87.5%(理論性能40.96TFLOPSに対して実効性能35.86TFLOPS)に達しているのと比較するとかなり見劣りする。
ちなみにロスアラモス国立研究所が2002年に出したカタログによれば、10.24TFLOPS構成の状態でLinpackベンチマークを実施したところ7.727TFLOPSの実効性能を発揮した(効率75.48%)としており、ネックがインターコネクトにあるのは明白だが、だからといってそう簡単に解決できる問題でもない。
それもあってか、2003年頃からロスアラモス国立研究所は「その他の用途」にもASCI Qが利用できることを積極的にアナウンスし始め、2005年にはロスアラモス国立研究所のDepartment of Theoretical Biology and Biophysicsに属するKevin Y. Sanbonmatsu博士がASCI Q上で、リボゾームの転写の動きを分子レベルでシミュレーションすることに成功したこと(関連リンク)などをアピールしたりしたが、すでに時遅しで、本質的な解決にはあまりつながらなかったようだ。
国家核安全保障局のAccomplishments(実績)というページを見ると、2003年度会計にしてすでにASCI Qは“retired from service”(現役引退)と恐ろしいことが書いてある。
運用そのものは2007年まで続いたが、肝心のASCIからはさっさと見切りをつけられてしまった形で、その意味では2億ドルをドブに捨てたと評されても文句は言えない気もする。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











