このページの本文へ

前へ 1 2 次へ

ロードマップでわかる!当世プロセッサー事情 第282回

スーパーコンピューターの系譜 インテルの超並列マシンiPSC

2014年12月08日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/

  • この記事をはてなブックマークに追加
  • 本文印刷

通信速度を向上させた
iPSC/2

 iPSC/1に続き、1987年にはノードを16MHz駆動のIntel 80386+80387に交換、搭載するメモリーもノードあたり4MBまで拡張したiPSC/2がリリースされる。

 また10Mbitのイーサネットを使ってのリンクはやはり遅かったようで、とはいえまだ100MbpsのFast Ethernetは存在しておらず、さらに当時は386の32bitバスをフルに使いきれる拡張バスがなかった。EISAがこの翌年登場するが、バス幅は32bitながら信号速度が8.33MHzだったのでやはり性能は足りなかった。

 そこで独自のDirect-Connect Moduleなるリンクを用意する。これは2.8MB/秒の転送速度を持つもので、それぞれのノードはこれを8チャネル分装備した。1つのキャビネットには最大16ノードが搭載され、最大128ノード(つまり8キャビネット)構成が可能とされた。

 ちなみに、80387のFPUは、80287よりは高速(例えばFADDは23~34サイクル)で、動作速度も16MHzまで引き上げられているから、1ノードあたりの理論最大性能は0.70MFLOPS、16ノードの1キャビネットあたり11MFLOPS強という計算になるが、実際にはiPSC/1と同じくそこまで性能は出なかった。

 そこで、オプションとしてSX(Scalar eXtention)とVX(Vector eXtention)が用意された。このうちSXの方は、実際にはWeitekの1167が採用された。

 Weitekの数字によれば、16MHz駆動の80386+80387の構成でのWhetstone Benchmark Scoreがおおむね0.95M Whet'/秒なのに対し、80386+1167の組み合わせは3.4M Whet'/秒に達するとしており、ラフに言って3.5倍というところだろうか。

 一方のVXは詳細が不明であるが、チップではなくモジュールの形で提供されたらしい。

 さて、このiPSC/2の16ノードの構成のものを、同じく16ノードのiPSC/1と比較した論文(関連リンク)が1986年に出されているが、いくつか中身を示そう。

iPSCの計算性能
  Whetstone
(C)
Whetstone
(Fortran)
Dhrystone
(register)
Dhrystone
(no register)
iPSC/1 102,600 (N/A) 724 717
iPSC/2 1,230,000 1,273,000 7990 7818
iPSCの通信速度
  Message size Tstartup Tsend
iPSC/1 <1Kbytes 1000μs 4μs
>1Kbytes 1000μs 7.5μs
iPSC/2 <100bytes 350μs 0.8μs
>100bytes 660μs 1.44μs

 計算性能の方は良いとして、通信速度のTstartupというのは、通信を始めようとする際に双方のノードが準備するのに必要な時間、Tsendは実際に4byteを転送するのに必要な時間である。

 例えば40Bytesのメッセージを送るとすればiPSC/1は1040マイクロ秒、iPSC/2は358マイクロ秒となり、ほぼ3分の1の時間で転送が終わることを示している。それなりに性能が向上したiPSC/2はおおむね140台ほどが販売されたらしい。

さまざまな機関に納入された
iPSC/860

 iPSC/2に続き1990年には3製品目として、プロセッサーをi860に切り替えたiPSC/860が投入される。i860は連載116回の黒歴史で取り上げたので覚えている方もおられよう。

 完全パイプライン化したFPUを搭載した初のプロセッサーであり、理論上は40MHz駆動で80MFLOPSの性能をたたき出す。もっともこれは理論上で実際は最適化の難しさもあって10MFLOPSそこそこ、という話は記事でも書いたとおりであるが、10MFLPOSだとしてもiPSC/2よりも10倍以上高速である。

 メモリーはノードあたり8MBに増量されたが、Direct-Connect Moduleは引き続きiPSC/2と同じものが利用され、この結果最大128ノードという制約もiPSC/2と同じとなっている。

 1993年のTOP500に、iPSC/860の128ノード構成がRmax 2.60GFLOPS/Rpeak 5.12GFLOPSということで84位にランキングされる。Rpeakは理論上の最高性能、RmaxはLinpackを実行した性能であり、2.6GFLOPSということは1ノードあたりLinpackで20.3MFLOPSを出した計算になるため、これはそう悪い数字ではない。

 ちなみにこの結果はNIH(アメリカ国立衛生研究所)が所有するiPSC/860での結果だが、他にもORNLを初めCS UTK(テネシー大学計算機科学科。現在はEECS UTKになっている)などさまざまな機関に納入されたらしい。

 価格はというと、1992年当時で最小の8ノードが26万5000ドル、32ノード構成が100万ドル、128ノードのものが350万ドルとされた。これが高いか安いかは微妙なところで、例えば1993年6月のTOP500のリストのトップはThinkingMachinesのCM-5の1024ノード構成で、Rmaxが59.7GFLOPSとされる。

 ただ前回も書いたとおり、CM-5は32ノードの構成で147万ドルなので、1024ノードでは4700万ドルほど。処理性能あたりの価格で言えば、78.8万ドル/GFLOPSという計算になる。

 一方iPSC/860は128ノード/350万ドルなので、134.6万ドル/GFLOPSとなり、CM-5のほぼ倍という計算になる。ただ価格性能比はともかく、最小の8ノードでもそれなりの性能が出て評価ができること、CM-5などに比べるとずっと設置面積が小さいことなど、いくつかのメリットは顧客にもあったようだ。

 一方のSCG(この頃にはSSDに改称されていた)にとってみても、i860単体ではせいぜいが数百ドル(当初は数千ドルだったらしいが)にしかならないのに、システムにすると100万ドル規模のビジネスになるわけで、利益率を考えても非常においしいことになる。

 結果、同社はこのビジネスをさらに推進していくことになる。ということで次回はこの後継であるTouchstoneとParagonを解説しよう。

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン