前回まではCRAYシリーズ、正確にはCRI(Cray Research Inc.)とCCI(Cray Computer Inc.)の系譜を説明してきたが、こちらは基本的にベクトル型マシンであった。
命令フォーマットはSIMD(Single Instruction Multi Data)で、1つの命令で複数のデータに同じ処理を行なわせるというものである。
SIMDの場合、命令の解釈は最初の1回だけで、その後はひたすらデータの読み込み→実行→書き出しを行なうため、メモリーのロード・ストアさえ間に合えばピーク性能が出しやすい。
逆に言えば、このメモリーのロード・ストアが間に合わないと全然性能が出ないわけで、CRAY-3がお化けのようなメモリーシステムを実装したのも無理ないところだが、これは当然ながらコストアップにつながり、消費電力も凄まじいものになる。
こうしたトレンドとはまた別の方向の研究も行なわれた。それはマルチプロセッサーの方向性である。1990年代にはMassively parallelなんて呼ばれ方をし、その後はGrid Computingという言い方に切り替わったが、中身はマルチプロセッサーである。
端的な話、今ではシングルコアのCPUなんてPCの世界でもごくわずかで、普通は2Pないし4Pのコアが搭載され、それを全部使い切ることでそれなりに快適なPC環境が実現できている。
同じように複数のCPUコアを用意し、それぞれに独自にプログラムを実行させればその分だけ性能が上がる。これをたくさん並べれば、その分だけ性能が上がるというわけだ。
もちろん話はそう簡単ではない。例えば全部のCPUでメモリーを共有すると、まず最初にメモリーがボトルネックになる。また、ある程度以上の個数のプロセッサーを接続しようとすると、今度はプロセッサー間の接続もボトルネックになる。
これはOSが密結合のマルチプロセッサーを前提としたものになっていることが最大の理由で、大規模なマルチプロセッサー構成は取りにくくなっている。
ただそうしたソフトウェアの互換性を無視すれば、例えばCPUとメモリーを一塊にして、その塊同士をネットワークでつなげば、ボトルネックは相対的に生じにくくなる。いわばPCクラスターをもっと小さい単位で実装するようなものである。もちろんこの場合でもネットワークをどう構築するかが最大の肝になる。
その大規模マルチプロセッサーに関する研究は特に80年代になってから盛んになった。そうした中でマサチューセッツ工科大学のWilliam Daniel Hillis博士が1981年9月に出した“The Connection Machine(Computer Architecture for the New Wave)”(関連リンク)というメモから始まったのが、今回紹介するThinking Machines社のコネクションマシンである。
並列コンピューティングを実現した
コネクションマシン
Hillis博士は当時MITのAI Labに属しており、その中で次世代のプロセッサーのあり方についていろいろな考察を行なっていた。このメモを見ていただければわかるが、メモそのものはプロセッサーのアーキテクチャーというよりは、もっと大きなMassive Parallelというシステムをどう構築すべきかについて論じたものである。
実はこれはHillis氏(まだ当時は修士)の博士論文の題材でもあるのだが、そこで博士号を取得するためにはメモの内容を実現する必要があった。
そこで氏はSheryl Handlerと共同でThinking Machines社を1983年に設立。ここで彼のメモの内容をCM-1(Connection Machine-1)として実装する。最終的にはこのCM-1に関する論文で氏は博士号を取得している。
→次のページヘ続く (6万5536個ものプロセッサーを並列処理させるCM-1)
この連載の記事
-
第775回
PC
安定した転送速度を確保できたSCSI 消え去ったI/F史 -
第774回
PC
日本の半導体メーカーが開発協力に名乗りを上げた次世代Esperanto ET-SoC AIプロセッサーの昨今 -
第773回
PC
Sound Blasterが普及に大きく貢献したGame Port 消え去ったI/F史 -
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ - この連載の一覧へ