通信速度を向上させた
iPSC/2
iPSC/1に続き、1987年にはノードを16MHz駆動のIntel 80386+80387に交換、搭載するメモリーもノードあたり4MBまで拡張したiPSC/2がリリースされる。
また10Mbitのイーサネットを使ってのリンクはやはり遅かったようで、とはいえまだ100MbpsのFast Ethernetは存在しておらず、さらに当時は386の32bitバスをフルに使いきれる拡張バスがなかった。EISAがこの翌年登場するが、バス幅は32bitながら信号速度が8.33MHzだったのでやはり性能は足りなかった。
そこで独自のDirect-Connect Moduleなるリンクを用意する。これは2.8MB/秒の転送速度を持つもので、それぞれのノードはこれを8チャネル分装備した。1つのキャビネットには最大16ノードが搭載され、最大128ノード(つまり8キャビネット)構成が可能とされた。
ちなみに、80387のFPUは、80287よりは高速(例えばFADDは23~34サイクル)で、動作速度も16MHzまで引き上げられているから、1ノードあたりの理論最大性能は0.70MFLOPS、16ノードの1キャビネットあたり11MFLOPS強という計算になるが、実際にはiPSC/1と同じくそこまで性能は出なかった。
そこで、オプションとしてSX(Scalar eXtention)とVX(Vector eXtention)が用意された。このうちSXの方は、実際にはWeitekの1167が採用された。
Weitekの数字によれば、16MHz駆動の80386+80387の構成でのWhetstone Benchmark Scoreがおおむね0.95M Whet'/秒なのに対し、80386+1167の組み合わせは3.4M Whet'/秒に達するとしており、ラフに言って3.5倍というところだろうか。
一方のVXは詳細が不明であるが、チップではなくモジュールの形で提供されたらしい。
さて、このiPSC/2の16ノードの構成のものを、同じく16ノードのiPSC/1と比較した論文(関連リンク)が1986年に出されているが、いくつか中身を示そう。
iPSCの計算性能 | ||||||
---|---|---|---|---|---|---|
Whetstone (C) |
Whetstone (Fortran) |
Dhrystone (register) |
Dhrystone (no register) |
|||
iPSC/1 | 102,600 | (N/A) | 724 | 717 | ||
iPSC/2 | 1,230,000 | 1,273,000 | 7990 | 7818 |
iPSCの通信速度 | ||||||
---|---|---|---|---|---|---|
Message size | Tstartup | Tsend | ||||
iPSC/1 | <1Kbytes | 1000μs | 4μs | |||
>1Kbytes | 1000μs | 7.5μs | ||||
iPSC/2 | <100bytes | 350μs | 0.8μs | |||
>100bytes | 660μs | 1.44μs |
計算性能の方は良いとして、通信速度のTstartupというのは、通信を始めようとする際に双方のノードが準備するのに必要な時間、Tsendは実際に4byteを転送するのに必要な時間である。
例えば40Bytesのメッセージを送るとすればiPSC/1は1040マイクロ秒、iPSC/2は358マイクロ秒となり、ほぼ3分の1の時間で転送が終わることを示している。それなりに性能が向上したiPSC/2はおおむね140台ほどが販売されたらしい。
さまざまな機関に納入された
iPSC/860
iPSC/2に続き1990年には3製品目として、プロセッサーをi860に切り替えたiPSC/860が投入される。i860は連載116回の黒歴史で取り上げたので覚えている方もおられよう。
完全パイプライン化したFPUを搭載した初のプロセッサーであり、理論上は40MHz駆動で80MFLOPSの性能をたたき出す。もっともこれは理論上で実際は最適化の難しさもあって10MFLOPSそこそこ、という話は記事でも書いたとおりであるが、10MFLPOSだとしてもiPSC/2よりも10倍以上高速である。
メモリーはノードあたり8MBに増量されたが、Direct-Connect Moduleは引き続きiPSC/2と同じものが利用され、この結果最大128ノードという制約もiPSC/2と同じとなっている。
1993年のTOP500に、iPSC/860の128ノード構成がRmax 2.60GFLOPS/Rpeak 5.12GFLOPSということで84位にランキングされる。Rpeakは理論上の最高性能、RmaxはLinpackを実行した性能であり、2.6GFLOPSということは1ノードあたりLinpackで20.3MFLOPSを出した計算になるため、これはそう悪い数字ではない。
ちなみにこの結果はNIH(アメリカ国立衛生研究所)が所有するiPSC/860での結果だが、他にもORNLを初めCS UTK(テネシー大学計算機科学科。現在はEECS UTKになっている)などさまざまな機関に納入されたらしい。
価格はというと、1992年当時で最小の8ノードが26万5000ドル、32ノード構成が100万ドル、128ノードのものが350万ドルとされた。これが高いか安いかは微妙なところで、例えば1993年6月のTOP500のリストのトップはThinkingMachinesのCM-5の1024ノード構成で、Rmaxが59.7GFLOPSとされる。
ただ前回も書いたとおり、CM-5は32ノードの構成で147万ドルなので、1024ノードでは4700万ドルほど。処理性能あたりの価格で言えば、78.8万ドル/GFLOPSという計算になる。
一方iPSC/860は128ノード/350万ドルなので、134.6万ドル/GFLOPSとなり、CM-5のほぼ倍という計算になる。ただ価格性能比はともかく、最小の8ノードでもそれなりの性能が出て評価ができること、CM-5などに比べるとずっと設置面積が小さいことなど、いくつかのメリットは顧客にもあったようだ。
一方のSCG(この頃にはSSDに改称されていた)にとってみても、i860単体ではせいぜいが数百ドル(当初は数千ドルだったらしいが)にしかならないのに、システムにすると100万ドル規模のビジネスになるわけで、利益率を考えても非常においしいことになる。
結果、同社はこのビジネスをさらに推進していくことになる。ということで次回はこの後継であるTouchstoneとParagonを解説しよう。
この連載の記事
-
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 - この連載の一覧へ