今年最後の連載は、スーパーコンピューターの系譜の第14回「nCUBE後編」である。1989年、nCUBEは第2世代製品のnCUBE 2を発表する。
先代から大幅に性能が向上した
nCUBE 2
nCUBE 2は初代のnCUBE 10と構成こそ似ているが、以下のようにノードプロセッサーそのものが大幅に性能が底上げされたうえに、最大ノード数も8倍になったことで、より高いシステム性能が望めるようになった。
nCUBE 2の変更点
- プロセスをNMOS 2μmからCMOS bi-metal 1μmに変更。この結果、動作周波数は当初20MHz、後に25/30MHzまで高速化された。ちなみにトランジスタ数は50万個まで増加した。
- ALU(整数演算ユニット)が64bit化。さらに128bytesの命令キャッシュと64bytesのデータキャッシュも搭載する。これら動作周波数向上により、整数演算性能は7MIPS、浮動小数点演算性能は3.5MFLOPS(単精度)に改善した。
- メモリー搭載量も1~64MBに増強。またオンチップでMMUも搭載した。下の画像は1ノード分のボードだが、nCUBE 2プロセッサーと6つの4Mbit DRAMを搭載した2MB構成のものである。
- I/Oリンクは22本から28本(14対)まで増強された。うち1対はI/O用なので、残り13対を利用することで、最大8192node(213)のHyper Cubeを構成可能となった。またリンクの速度は20Mbpsに増強されている。
ちなみにシステムコントローラーは、nCUBE 10のi286ベースPCからSun Microsystemsのワークステーションに変更されている。
このnCUBE 2のシステムもまた、それなりに売れたらしい。もともとnCUBE 10の時には、開発用向けに、4ノード分が搭載されたPCの拡張カードや、16ノード構成のボードも用意されていたが、nCUBE 2では64ノードが搭載された1枚のボードが最小構成という事になった。
ちなみにその最小構成のお値段は、当時の価格でおおむね25万ドルとされている。nCUBEもまた、いくつかの顧客に納入されたが、最大の規模のものはSNL(Sandia National Laboratories:サンディア国立研究所)に納入された1024ノードの構成だった。
このシステムはLINPACKで1.9GFLOPSの性能を出し、1993年6月にはTOP5000に160位でランク入りしている(関連リンク)。
SNLには初代のnCUBE 10のシステムも納入されているが、こちらはTOP500にはランクインしていない。ただ1024ノードのnCUBE 10システムを使って400~600倍の高速化を図ったということで、SNLのRobert Benner/John Gustafson/Gary Montryの3氏が第1回(1987年)のゴードンベル賞を受賞している(関連リンク)。
さて、実はこのあたりからnCUBEの方針が段々変わっていくのだが、その話は後述するとして、先にnCUBE 3の話をしたい。
64bitアドレスをサポートする
nCUBE 3
1995年にnCUBEは後継製品となるnCUBE 3を発表する。nCUBE 3ではついにリンク数が16対となり、フル構成でのノード数は216=65536個が可能となっている。
これだけノード数が多い上に、しかも1ノードあたり最大1GBまでのメモリーが利用可能となっている。ここまでメモリー容量が多い(理論上最大構成では64TB)と、32bitのアドレスでは全然足りないため、nCUBE 3のノードプロセッサーは64bitアドレスをサポートするようになった。
ノードプロセッサーの構成は下の画像の通りである。製造プロセスは0.6μmの3層CMOSで、初期ロットで50MHz、後期ロットでは66MHz動作が可能だった。総トランジスタ数は270万とされている。
ALUはほぼ1命令/サイクルで動作しており、50MHz動作で50MIPS、一方FPUはMAC(Multiply and ACcumulate)命令をサポートしており、つまり1サイクルで乗算と加算を行なえる構成になっており、ピーク性能では50MHz動作で100MFLOPSという計算になる。
これを支えるため、16KBの命令キャッシュおよびデータキャッシュ(どちらも2-way assosiative)を搭載しており、プロセッサー内部のキャッシュの帯域は合計1.6GB/秒とされる。
さすがにこの頃になると、プロセッサー内部もパイプライン化が完了したようであり、特にload/storeは独立したパイプラインで実行することで効率化を図っているという記述がある。
ちなみにスーパースカラーを実装、とする資料もあるが、nCUBE社の論文にはそれを伺わせるものはない(否定する記述もないが)。
細かいところでは汎用レジスターの数も32に増強されており、当然ながらここまで内部構造が変わったため、nCUBE 2とのオブジェクト互換性はない。
→次のページヘ続く (高速転送を可能にしたパラチャンネル)
この連載の記事
-
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ -
第786回
PC
Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ -
第785回
PC
Xeon 6のIOチップレットには意地でもDDR5のI/Fを搭載しないインテルの強いこだわり インテル CPUロードマップ -
第784回
PC
Intel 3は300~500MHz動作周波数が向上する インテル CPUロードマップ -
第783回
PC
Lunar LakeにはWi-Fi 7があるがPCIe x16レーンは存在しない インテル CPUロードマップ -
第782回
PC
Lunar LakeはNPUの動作周波数がアップし性能は2倍、ピーク性能は4倍に インテル CPUロードマップ -
第781回
PC
Lunar LakeのGPU動作周波数はおよそ1.65GHz インテル CPUロードマップ -
第780回
PC
Lunar Lakeに搭載される正体不明のメモリーサイドキャッシュ インテル CPUロードマップ -
第779回
PC
Lunar LakeではEコアの「Skymont」でもAI処理を実行するようになった インテル CPUロードマップ - この連載の一覧へ