スーパーコンピューターの系譜　経営陣の迷走に振り回されたCM-5

2014年12月01日 12時00分更新

プロセッサーの性能が大きく進化

　さて、話をプロセッサーに戻そう。浮動小数点演算性能で言えば、各々のプロセッサーノードは128MFLOPSの性能と512MB/秒のメモリー帯域を持つとされた。

　32bitの浮動小数点では128MFLOPS＝512MB/秒になるため、ちょうど一致する数字だ。もっとも実際には元の数字×2の読み込み＋演算結果の書き込みになるので、512MB/秒では足りない。

　しかし、一般的にDRAMの書き込みは遅く、2倍くらいの帯域を用意しないと帳尻が合わないのだが、あわせて4倍の帯域を確保するのは無理があったのだろう。

　CM-5の最小構成ではこれが32個だから、4GFLOPSと16GB/秒の帯域という計算になる。これは1991年当時の性能としては、それほど高いものではない。ただCM-5の場合は、理論上これを最大16384nodeまで拡張することが可能だった。

　もっともこれはキャビネット間のインターコネクトが理論上対応できる数字という意味でもあり、実機はもっとnode数が少ない。

　それぞれのキャビネットは(正確な資料が見つからなかったのだが)最大256nodeまで搭載できたようで、さらに複数のキャビネットを上から見ると稲妻状で、段違いに接続することで最大1024nodeまでが用意されていた。この1024nodeの場合、ベンチマークで700GFLOPSを超える性能を発揮できるとしていた。

1024nodeの場合、ベンチマークで700GFLOPSを超える。“THE CM-5 Connection machine:A scalable supercomputer”より抜粋

　この後継として比較的すぐ登場したのがCM-5E、ないしCM-5 Scale 5である。名称の由来がはっきりしないのだが、大きな違いはプロセッサーをSPARCからSuperSPARC(SuperSPARC I)に切り替えたことだ。

　プロセッサーのアーキテクチャーはSPARC V7からSPARC V8になり、動作周波数が向上したほか、ハードウェアの乗除算命令が追加、さらには2次キャッシュもサポートされるなど大分整数演算性能が改善されている。ただ浮動小数点演算周りは特に変更がなかったようである。

　ちなみに同社のカタログによれば、512node構成のCM-5 Scale 5の場合、ピーク演算性能は83GFLOPS/83Gops(Giga Operation Per Second)とされている。

　このCM-5の出だしは順調とは言いがたかった。1994年6月にオランダで開催されたInternational Conference on Massively Parallel Processing Applications and Developmentという学会で発表された“A data parallel implementation of the TRFD program from the Perfect benchmarks”という論文ではいくつかのシステムでTRDF(Time-Resolved Fluorescence Depletion)を実行した結果が示されている。

TRDFを実行した結果
システム	プロセッサー数	最適化性能(MFLOPS)
Cray 2S/4128	4	52.2
Cray X-MP/416	4	206.2
Cray Y-MP/832	8	496.4
CM-5	256	14.0±0.5
CM-200	1024	61.0±0.7

　この時はCM-5はまだβ版のソフトを使っており、またCM-5そのものが占有ではなくTime Shared(他のユーザーと時分割で共用していた)という話なのでそのままの実力とはいえないが、それにしてもやや数字が低い。

　あるいは2004年のSystemics, Cybernetics and Informaticsに掲載された“Micro-mechanical Simulations of Soils using Massively Parallel Supercomputers”(関連リンク)という論文では、CM-5を使ってnode数を増やしたときどれだけ性能が改善されるかを比較した数字が出ている。