スーパーコンピューターの系譜　インテルの超並列マシンiPSC

2014年12月08日 12時00分更新

通信速度を向上させた
iPSC/2

　iPSC/1に続き、1987年にはノードを16MHz駆動のIntel 80386＋80387に交換、搭載するメモリーもノードあたり4MBまで拡張したiPSC/2がリリースされる。

　また10Mbitのイーサネットを使ってのリンクはやはり遅かったようで、とはいえまだ100MbpsのFast Ethernetは存在しておらず、さらに当時は386の32bitバスをフルに使いきれる拡張バスがなかった。EISAがこの翌年登場するが、バス幅は32bitながら信号速度が8.33MHzだったのでやはり性能は足りなかった。

　そこで独自のDirect-Connect Moduleなるリンクを用意する。これは2.8MB/秒の転送速度を持つもので、それぞれのノードはこれを8チャネル分装備した。1つのキャビネットには最大16ノードが搭載され、最大128ノード(つまり8キャビネット)構成が可能とされた。

　ちなみに、80387のFPUは、80287よりは高速(例えばFADDは23～34サイクル)で、動作速度も16MHzまで引き上げられているから、1ノードあたりの理論最大性能は0.70MFLOPS、16ノードの1キャビネットあたり11MFLOPS強という計算になるが、実際にはiPSC/1と同じくそこまで性能は出なかった。

　そこで、オプションとしてSX(Scalar eXtention)とVX(Vector eXtention)が用意された。このうちSXの方は、実際にはWeitekの1167が採用された。

　Weitekの数字によれば、16MHz駆動の80386＋80387の構成でのWhetstone Benchmark Scoreがおおむね0.95M Whet'/秒なのに対し、80386＋1167の組み合わせは3.4M Whet'/秒に達するとしており、ラフに言って3.5倍というところだろうか。

　一方のVXは詳細が不明であるが、チップではなくモジュールの形で提供されたらしい。

　さて、このiPSC/2の16ノードの構成のものを、同じく16ノードのiPSC/1と比較した論文(関連リンク)が1986年に出されているが、いくつか中身を示そう。

iPSCの計算性能
	Whetstone (C)	Whetstone (Fortran)	Dhrystone (register)	Dhrystone (no register)
iPSC/1	102,600	(N/A)	724	717
iPSC/2	1,230,000	1,273,000	7990	7818

iPSCの通信速度
	Message size	Tstartup	Tsend
iPSC/1	＜1Kbytes	1000μs	4μs
iPSC/1	＞1Kbytes	1000μs	7.5μs
iPSC/2	＜100bytes	350μs	0.8μs
iPSC/2	＞100bytes	660μs	1.44μs

　計算性能の方は良いとして、通信速度のTstartupというのは、通信を始めようとする際に双方のノードが準備するのに必要な時間、Tsendは実際に4byteを転送するのに必要な時間である。

　例えば40Bytesのメッセージを送るとすればiPSC/1は1040マイクロ秒、iPSC/2は358マイクロ秒となり、ほぼ3分の1の時間で転送が終わることを示している。それなりに性能が向上したiPSC/2はおおむね140台ほどが販売されたらしい。

さまざまな機関に納入された
iPSC/860

　iPSC/2に続き1990年には3製品目として、プロセッサーをi860に切り替えたiPSC/860が投入される。i860は連載116回の黒歴史で取り上げたので覚えている方もおられよう。

　完全パイプライン化したFPUを搭載した初のプロセッサーであり、理論上は40MHz駆動で80MFLOPSの性能をたたき出す。もっともこれは理論上で実際は最適化の難しさもあって10MFLOPSそこそこ、という話は記事でも書いたとおりであるが、10MFLPOSだとしてもiPSC/2よりも10倍以上高速である。

　メモリーはノードあたり8MBに増量されたが、Direct-Connect Moduleは引き続きiPSC/2と同じものが利用され、この結果最大128ノードという制約もiPSC/2と同じとなっている。

　1993年のTOP500に、iPSC/860の128ノード構成がRmax 2.60GFLOPS/Rpeak 5.12GFLOPSということで84位にランキングされる。Rpeakは理論上の最高性能、RmaxはLinpackを実行した性能であり、2.6GFLOPSということは1ノードあたりLinpackで20.3MFLOPSを出した計算になるため、これはそう悪い数字ではない。

　ちなみにこの結果はNIH(アメリカ国立衛生研究所)が所有するiPSC/860での結果だが、他にもORNLを初めCS UTK(テネシー大学計算機科学科。現在はEECS UTKになっている)などさまざまな機関に納入されたらしい。

　価格はというと、1992年当時で最小の8ノードが26万5000ドル、32ノード構成が100万ドル、128ノードのものが350万ドルとされた。これが高いか安いかは微妙なところで、例えば1993年6月のTOP500のリストのトップはThinkingMachinesのCM-5の1024ノード構成で、Rmaxが59.7GFLOPSとされる。

　ただ前回も書いたとおり、CM-5は32ノードの構成で147万ドルなので、1024ノードでは4700万ドルほど。処理性能あたりの価格で言えば、78.8万ドル/GFLOPSという計算になる。

　一方iPSC/860は128ノード/350万ドルなので、134.6万ドル/GFLOPSとなり、CM-5のほぼ倍という計算になる。ただ価格性能比はともかく、最小の8ノードでもそれなりの性能が出て評価ができること、CM-5などに比べるとずっと設置面積が小さいことなど、いくつかのメリットは顧客にもあったようだ。

　一方のSCG(この頃にはSSDに改称されていた)にとってみても、i860単体ではせいぜいが数百ドル(当初は数千ドルだったらしいが)にしかならないのに、システムにすると100万ドル規模のビジネスになるわけで、利益率を考えても非常においしいことになる。

　結果、同社はこのビジネスをさらに推進していくことになる。ということで次回はこの後継であるTouchstoneとParagonを解説しよう。

前へ 1 2 次へ

ツイートする

カテゴリートップへ

スーパーコンピューターの系譜 インテルの超並列マシンiPSC

通信速度を向上させた iPSC/2

さまざまな機関に納入された iPSC/860

この連載の記事

この記事の編集者は以下の記事をオススメしています

PC ロードマップでわかる！当世プロセッサー事情（目次）

PC スーパーコンピューターの系譜 経営陣の迷走に振り回されたCM-5

PC スーパーコンピューターの系譜 研究者が憧れたコネクションマシンCM-1

PC スーパーコンピューターの系譜 CRAY Y-MP以降のベクトル型マシン

PC スーパーコンピューターの系譜 マルチコア化で大ヒットしたCRAY X-MP

PC スーパーコンピューターの系譜 高性能だが売れなかったCRAY-3

PC スーパーコンピューターの系譜 性能を10倍に引き上げたCRAY-2

PC スーパーコンピューターの系譜 “スパコンの父”が作り上げたCRAY-1

注目ニュース

ピックアップ

アスキーストア's 人気ランキング ベスト5

スーパーコンピューターの系譜　インテルの超並列マシンiPSC

通信速度を向上させた
iPSC/2

さまざまな機関に納入された
iPSC/860

PC
ロードマップでわかる！当世プロセッサー事情（目次）

PC
スーパーコンピューターの系譜　経営陣の迷走に振り回されたCM-5

PC
スーパーコンピューターの系譜　研究者が憧れたコネクションマシンCM-1

PC
スーパーコンピューターの系譜　CRAY Y-MP以降のベクトル型マシン

PC
スーパーコンピューターの系譜　マルチコア化で大ヒットしたCRAY X-MP

PC
スーパーコンピューターの系譜　高性能だが売れなかったCRAY-3

PC
スーパーコンピューターの系譜　性能を10倍に引き上げたCRAY-2

PC
スーパーコンピューターの系譜　“スパコンの父”が作り上げたCRAY-1

アスキーストア's 人気ランキングベスト5