前回のTI ASCに比べれば多少新しいのが今回解説するFPS(Floating Point Systems, Inc.)のFPS Tシリーズである。
CRAY-1より安価なマシンを供給していた
FPS
FPSという会社は名前の通り、浮動小数点演算、つまり科学技術用の計算システムを製造・販売していたメーカーである。創立は1970年とけっこう古めで、最初の製品であるAP-120Bは1976年に発表された。
これはさまざまなホスト(例えばDECのPDP-11という16bitのミニコンピューター)と接続してアクセラレーターとして動作するもので、内部構造は下の画像のように加算と乗算ユニットを搭載し、これにメモリーとレジスターがくっついたシステムである。
同社はこれをScientific Array Processorと称している。命令セットは64bit長であるが、おもしろいのは内部が8つの8bit領域(Parcel)に分割され、それぞれ内部のユニットに対する処理を記述する方式になっていたことだ。
VLIWと異なるのは、あくまでこの8つのPercelで1つの命令を記述していることで、実際命令コード(OPERATION CODE)の領域は1つしかない。
では他のPercelはなにをやっているかといえば、例えばX Reg, Write Percelというのは結果をX Registerに書き込む場合、レジスターのどれを使うかを明示的に指定するものだ。
最近のCPUはこうしたものは自動的にCPU内部で割り当てを行なう仕組みが用意されているが、なにせ1976年のことなので、こうしたものを明示的にプログラマーが指定する必要があった。
もっとも、うまくやれば下の画像のようにパイプライン動作が可能になり、ベクトツプロセッサーと同じような性能が得られる。
※ここまでの画像出典は、FPS社のAlan E. Chaeleworth氏が1981年9月のIEEE COMPUTERに掲載した“AnApproach to Scientific Array Processing:The Architectural Design of the AP-120B/FPS-164 Family”という記事。
実際のスループットで言えば、乗加算(A+B×C)はスカラーで10サイクルなのがベクトルで3サイクル、除算(A/B)はスカラーで22サイクルなのがベクトルで7サイクルとされ、うまくデータをプログラマーが扱えば性能が大きく改善するとしている。
ちなみにデータ長は38bitという不思議なもので、これは当時APS-120Bがターゲットとしたアプリケーションでは32bitでは精度が足らず、64bitにすると無駄が多すぎるかららしい。
ただし、後継のFPS-164はこれを64bit幅に拡張している。APS-120Bのシステム全体の動作速度は6MHzで、理論性能では12MFLOPSということになる。CRAY-1の160MIPSに比べると見劣りはするが、その分価格も安かったようで、予算の少ない研究所や、医療用のイメージ処理など、CRAY-1クラスを導入できないところに好評だったらしい。
APS-120Bに続いて、やや性能を上げるとともにIBMのメインフレームに接続できるようにしたAP-190Lと、逆に信号処理向けの低価格品であるFPS-100がリリースされ、次いで1980年には先に述べた通り内部のデータ幅を64bit化したFPS-164が投入されている。
しかし、この頃の同社の競合製品はIBMであって、IBM 3081や、その後継として投入されたIBM 3090(ベクトル演算支援付き)などは、FPS-164を上回る性能を発揮した。
FPS-164の性能そのものは、11MFLOPS(若干動作速度が落ちた)こともあり、FPSは後追いで行列演算に特化させたFPS-164/MAXを投入する。これは、行列演算用の回路を追加することで22MFLOPSを実現した。
さらに後追いで、内部の回路をTTLからECLに変更することで5倍の動作周波数を実現したFPS-264も投入される。ただし性能そのものは3.5~4倍程度だったらしい。
もっとも、競合といってもIBMと顧客を奪い合うというよりは、性能を308x/3090より引き上げないとIBMに採用されなかった、という方が実情に近いかもしれない。
IBMは当時LCAP(Loosely Coupled Array of Processors)というシステムを構築しており、試験的に作られたLCAP/1とLCAP/2に続き、商用モデルとしてLCAP/3090というシステムを開発していた。
これはCRAY-1などに対抗するのに、単一の高性能プロセッサーの代わりに多数のアクセラレーターを接続してトータルでの性能アップを目指すという構成である。
※画像出典は、IBMが1986年に出した“Large-Scale Computations on a Scalar, Vector and Parallel Supercomputer”という論文。
ちなみにLCAPに関しては、単にIBMだけでなくDECのVAXシリーズとやはり同じような構成を取ったシステムを構築したりするなど、さまざまなものがあった。
いずれも目的は簡単で、CRAYに代表される高速なベクトルコンピューターの市場を、もう少し廉価に自社のシステムで代替できるようにするというもので、このビジネスは1991年にFPSがCRIに買収されるまで形を変えつつ続いた。
(→次ページヘ続く 「後継の超並列マシン、FPS Tシリーズ」)

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











