6万5536個ものプロセッサーを並列処理させる
大規模なマルチプロセッサー構成
CM-1の最初の目的は、ニューロン(神経細胞)を模したモデルのシミュレーションだったらしい。したがって、プロセッサー1つ1つの性能は低くてもよく、その代わりに多数のプロセッサーを集積したマシンが必要だった。
この目的に沿って、CM-1は4KbitのRAMを搭載した1bit(正確には3bit入力、2bit出力)のプロセッサー(これをnodeと称した)を合計6万5536個集積したものになった。
なにせ規模が小さいため、当時の半導体技術でも高集積化は容易だったようで、16nodeを1つのチップとして集積しており、1枚の基板にはこのチップが32個搭載されている。
この基板を16枚実装した箱をCubeと呼び、Cubeを8つつなげた。16×32×16×8=6万5536というわけで、実際にCM-1はCubeを8つ、立方体状に構成したものになっている。この立方体、大きさは各辺1.5mほどだった。
ちなみにこのnodeだけではなにもできないので、実際にはフロントエンドにDEC(Digital Equipment Corporation) のVAX、もしくはSymbolics 3600ワークステーションを4台用意し、4×4のクロスバースイッチ(上の画像でNexusとあるもの)経由で4つのSequencersに命令を発行する形になっていた。
このSequencerというのは、自身の配下にある2cube(1万6384個分)のnodeに対して一斉に命令を配布する、ブロードキャストの作業を行なっており、これはSIMD命令を解釈するタイプのものだった。
各々のチップの中の16nodeは、2次元のメッシュ構造で隣接するnodeと通信可能になっている。一方チップとはnodeとは別にルーターという通信チャネルが設けられ、このルーター経由でチップ間の通信が行なわれる方式だった。
高額すぎて買えない
夢のマシン「CM-1」
CM-1の最初のプロトタイプは4MHz動作で、システム全体の消費電力は12KW。node1つあたりの消費電力は0.1W前後だが、ルーターやシーケンサー、あとは通信などがあるため、妥当な数字に思える。
ちなみにCM-1全体で32bitの加算を行なった場合の性能はおおむね1000MIPS、メモリー帯域は最低値で32Mbit/秒、典型値で1Gbit/秒ほど。高速フーリエ変換を行なった場合の性能は50Gbit/秒に達するという数字が論文に記載されている。
32bitの加算は、nodeを32個並べてそれぞれが1bitづつの加算を行なう仕組みだ。桁上がりの処理などを無視すれば、同時に2048個の加算が実行できることになり、4MHz動作では8192MIPSという性能になるのだが、実際には負荷(オーバーヘッド)がかなりあるため、そううまくはいかない。
とはいえ、プロトタイプで1000MIPSというのはなかなかの性能であり、この当時ここまでの性能が出せるマシンはなかったから、CM-1は大いに有望視された。
またCM-1はヴァーチャルプロセッサーを構成することも可能とされた。なにせ実態は1bitのプロセッサーなので、構成を自由に組み合わせることで、任意のCPUの命令を(完全ではないにしても)模すことができるのも特徴であった。
もっともこれはハードウェア的には可能であっても、そうしたソフトウェアを動かさないと不可能なわけで、そう簡単ではなかったようだ。
さて話を戻すと、CM-1は元々は研究目的のマシンの具現化であった。特にAI系のシミュレーションのためにLIPSが利用できたので、AI系の研究者にとってはある種夢のマシンだったらしい。「らしい」というのはCM-1は当時の価格で500万ドルほどで、AI系の研究機関では手が出なかったからだ。
CM-1は通算で7台が販売されたが、これはDARPA(Defense Advanced Research Projects Agency:国防高等研究計画)の後押しや、補助金のおかげで、普通に販売しても売れる見込みは薄かった。
→次のページヘ続く (浮動小数点演算を強化したCM-2)
この連載の記事
-
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 - この連載の一覧へ