18インチ幅のボードが雪だるま式に増え
相当の枚数が必要になった
さて、このNumeric Processorであるが、ECL(Emitter-coupled logic:エミッター結合論理)を利用して実装された。
同社の試算によれば、TTL/CMOSを利用しての実装も可能だったが、その場合動作周波数が10MHzに留まるのに対し、ECLでは25MHzまで性能が引き上げられると見ていた。
コストの面ではTTL/CMOSを使うと、ECLの3分の1まで引き下げられるので、性能/コストで考えればTTL/CMOSを使ったほうが良いのだが、それでは目的の性能が実現できないための判断だった。
ただし1985年当時のECLではあまり大規模なICの製造は不可能で、一方Numeric Processor全体では100Kゲートほどの規模になると試算されたため、実際にはNumeric Processorだけで18インチ幅のボードが相当の枚数必要になったらしい。
ボード枚数が増えたため、各々のボード間の接続用のバッファも増え、これが総ロジック数をさらに増やし、枚数がさらに増えるという雪だるま効果に見舞われることになった。
論文には「もしゲートアレイが使えたら、ボードの枚数を3分の1か4分の1に減らせただろう」と書いてあるが、これは当時の技術では仕方ないところ。
利用したのはAMCC(現APM)のECL ASICだったらしいが、当時の資料(PDF)を調べる限り、1985年頃にはQ700という250~1000ゲート規模のECLゲートアレイのプロトタイプが利用できたかどうかという頃で、この250ゲートのものを使ったとすると100Kゲートを構築するには400個ほど必要になる計算だ。
チップ間のバッファ類なども考えると、ボード1枚に10個載せられたとしても40枚が必要になる。当時の実装技術を考えると実際に搭載できるチップ数はもっと少なかったはずで、なるほど「相当の枚数」という表現も理解できる。
ちなみにメインメモリーに関しては、容量とコストを勘案すると高速なECL SRAMは到底利用できず、低速ながら低価格なMOS DRAMの利用を余儀なくされた。
このMOS DRAMで性能をかせぐため、かなり大規模なインターリーブを利用したようだ。ただその結果、stride(1回にアクセスできるメモリーの最小サイズ)も大きくなってしまい、シーケンシャルアクセスはともかくランダムアクセス性能が急落する問題が出た。
これは「アプリケーション側で対応できる」(ランダムアクセスするようなプログラムを書かない)というトレードオフで対応したそうだ。
ただレイテンシーはいくらインターリーブを使っても解決できない。そこでMLR(Memory Latency Register)という内部レジスターを設け、プログラムがこれを見てレイテンシーが問題にならないようにInner loop(プログラム内部のループ処理)を廻す、というこれまたソフトウェア任せの解決法を実装している。
目標のスペックを達成するも
システムが売れずに会社が倒産
Cydra 5は、1987年までに3台のプロトタイプを含む9台のシステムが完成し、実際に何台かは顧客の所に納入され、評価されたらしい。
Cydrome自身の論文によれば、LINPACKで15.4MFLOPS、LFK(Livermore FORTRAN Kernel)で5.78MFLOPSという数字を示している。このLFKに関してはもう少し詳細な数字があって、以下の結果が残されている。
| スーパーコンピューターの性能比較 | ||||||
|---|---|---|---|---|---|---|
| メーカー | Cydrome | Multiflow | Convex | Alliant | Cray | |
| システム名 | Cydra 5 | TRACE 14/300 | C-210 | FX8-8 | CRAY-1S | |
| 製造年 | 1988 | 1988 | 1988 | 1986 | 1985 | |
| 倍精度理論性能 (MFLOPS) |
25 | 60 | 50 | 94.4 | 160 | |
| LKF調和平均 (MFLOPS) |
5.786 | 5.386 | 5.320 | 1.563 | 8.039 | |
もっともこの数字は“Instruction-Level Parallelism: A Special Issue of The Journal of Supercomputing”という論文に記されているものだが、この論文の著者の1人がBob R. Rau博士というあたりはちょっと割り引いて考えるべきかも知れない。
とはいえ、確かに設計目標である「高価なスーパーコンピューターの何分の1かの性能を50~100万ドルで実現」というのは、1998年時点では達成できていたことになる。
ではビジネスとしてはどうだったかというと、プロトタイプとは別に製造された6台のCydra 5ですら、完全には売り切れなかったらしい。
同社はこのあと、内部構造に手を入れてさらに性能を上げたCydra 10を予定していたが、これは具体的な設計に入る前に会社が終わってしまった。
CydromeはPrime Computerというコンピューターメーカーの資金援助を受けて、Cydra 5を開発していたが、肝心のCydra 5の売れ行きが芳しくなかった。
これを受けてPrime ComputerはCydromeの買収を持ちかけるが、Cydromeがこれを拒否した結果、資金援助が終了。そのまま会社が倒産してしまった。
ということで冒頭の話に戻る。倒産したCydromeの資産(特に特許などを含むIP)は、最終的にHP Labsに買収された。いわずと知れたHPの研究部門である。
当時HP LabsのディレクターだったDick Lampman氏がこの買収を決断するとともに、FAST(Fine-Grained Architecture and Software Technologies)と呼ばれる研究プロジェクトを開始する。
このチームにBob R. Rau博士も合流し、Cydra 10の構想をさらに進めることになる。この結果として生まれたのがEPICである。要するに、コレである。
Rau博士はIEEE Computerの2000年2月号に掲載された“EPIC: Explicitly Parallel Instruction Computing”という記事の中で、以下のものはCydra 5のコンセプトをそのまま引き継いでいるとしている。
- 投機実行
- ソフトウェアパイプラインのサポート
- レイテンシー遮蔽とMLR(Memory Latency Register)
- 複数実行と独立分岐処理
- 投機実行のハードウェアサポート
- マルチテンプレート命令フォーマット
Cydra 5の構想そのものは1980年にすでにRau博士が考え始めたものだが、その夢を捨てずに執念深く追い求めた結果が、2001年のMercedこと初代Itaniumだった、といえるのかもしれない。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











