スーパーコンピューターの系譜　SMPクラスター構成のASCI Bule Mountain

2015年01月26日 12時00分更新

Power Challangeの後継となるOrigin
512ノード/1024プロセッサーを目指す

　まずは元になるOrigin 200/2000のシステムについて解説する。この当時、SGIはMIPS R3000ベースで最大8プロセッサーのPowerシリーズ、MIPS R4000ベースで最大36プロセッサーのChallangeシリーズ、それとMIPS R10000ベースのPower Challangeシリーズという3種類のラインナップを持っていた。

　OriginはこのPower Challangeの後継製品にあたる。Power ChallangeはChallangeシリーズ同様に最大36プロセッサーのシステムだったが、Originは最大で512ノード/1024プロセッサーを可能にすることを目指していた。

Originの構造。1ノードは2つのプロセッサーとハブノードからなる。I/O Xbar(クロスバー)は、複数のノードにまたがる形で設置される。資料は“The SGI Origin: A ccNUMA Highly Scalable Server”という論文から抜粋

　上図からわかるとおり、メモリーシステムそのものは各ノードごとに配されており、システムもUMA(Unified Memory Address)ではなく、NUMA(Non-Unified Memory Address)方式である。

　ただし各プロセッサーのキャッシュはシステム全体でキャッシュコヒーレンシーを保つということで、分類としてはccNUMA(Cache-Coherency Non Unified Memory Address)方式となる。

　R10000プロセッサーそのものは下図に示すようなMIPS64ベースの、同時4命令実行のスーパースカラー構成を持つプロセッサーである。

R10000プロセッサーの内部構造。IEEE Micro April 1996に掲載された“Tth MIPS R10000 Superscalar Microprocessor”という記事からの抜粋

　製造プロセスは0.35μmで、ダイサイズは298mm²、トランジスター数は680万個(うち440万個は1次キャッシュ)、動作周波数は最大200MHzであった。

　ちなみに製造はNECと東芝が行ない、後に0.25μmにプロセスを微細化し、250MHz稼動が可能になったバージョンも存在する。ただOriginそのものは195MHz動作とされており、0.35μmプロセスのものが利用されたと思われる。

　1次キャッシュは命令/データともに32KBであり、外部には下の画像のように512KB～16MBまでの2次キャッシュを利用可能だった。OriginではCPUあたり4MBの2次キャッシュが装備されている。

Originのキャッシュ構造。クラスターバスと2次キャッシュが別々のI/Fで用意されているあたりは、Pentium IIなどと同様の構造である

　CPUとキャッシュはHIMM(Horizontal In-line Memory Module)と呼ばれるカードに搭載され、これが下の画像のようなボードに装着されて1つのノードを構成した。

ボードそのものの大きさは16×11インチ(40.64×27.94cm)で、PCのATXマザーボードより二回りほど大きい程度

　ちなみにR10000そのものは、FPU命令を1サイクルあたり2命令(ADD/MUL)実行できるので(レイテンシーは2サイクルだがリピートレートは1サイクル)、200MHz動作なら400MFLOPSとなり、512ノード/1024プロセッサーでおおむね400GFLOPSとなる。

　したがって3TFLOPSならば7.5システムをクラスター接続すれば足りる計算になる。ただしそのためには、各ノードが無駄な待ちを行なわずに協調動作できる必要があり、つまりインターコネクトがどう動くかという話になる。

　先の「Originの構造」を示した画像でScalable Interconnect Networkと記述されている部分だ。この中身であるが、実は一種のハイパーキューブである。

Scalable Interconnect Networkの中身は、2つのノードに1つづつルーターが配される形で、16ノード(32プロセッサー)が最小単位となる。この32プロセッサーのハイパーキューブを広域に接続する形だ。ノード数が増えるとハイパーキューブではなくFat Treeが使われる

　下の画像は32～128プロセッサーのケースであるが、最大構成となる1024プロセッサーではこの128プロセッサー構成のシステム8つをさらにハイパーキューブ式につなぐ形になる。

ハブそのものは中央のクロスバーで、PIがProcessor Interfece、IIがI/O Interface、NIがNetwork Interface、MDがMemory Interfaceである。総ゲート数は808KGateと発表されており、かなりの規模である

　ルーターはSpiderと呼ばれるSGI独自設計のASCIチップで、各ノードに入るハブもやはり独自設計のASICが用いられる。キャッシュコヒーレンシーの確保にはスタンフォード大で開発されたDASH(Directory Architecture for Shared Memory)をベースに拡張したものが用いられた。