Cyclops64のチップが世に出ることはなく
シミュレーションでプロジェクトが終了
プロジェクトではチップの設計だけでなく、アプリケーションの性能をいかに引き出すかという部分もいろいろと研究された。デラウェア大学のGuang R. Gao主幹教授の論文では、FFT(Fast Fourier Transform:高速フーリエ変換)、LU分解、SCCA2ベンチマークなどで、それなりに高い性能を引き出しやすいことが示されている。
もっとも、必ずしも使いやすいとも言い切れない部分も多分に存在した。同じGao主幹教授も共同執筆者に名を連ねている“Optimization of Dense Matrix Multiplication on IBM Cyclops-64: Challenges and Experiences”という論文では、結論として「データがSRAM内に納まる範囲内では、タイリングやループ除去、レジスター割り当て、命令スケジューリングが最も重要なファクターであり、この際にはスクラッチパッドは煩雑に利用するデータの格納に利用できる」
「ところがデータがSRAMに納まりきらない場合、DRAMの帯域がボトルネックになる。そこでSRAMをDRAMアクセスのバッファとして使い、さらにDRAMアクセスを計算処理とオーバーラップさせるようにすることで、大幅に性能を改善できる」としている。
また、コンパイラに対しては「最内周ループでのレジスター割り当てが最大のポイント」だと指摘している。要するに、アプリケーションを書く際にはデータ量を気にしないといけないということだ。
IBMによる“Dissecting Cyclops:A Detailed Analysis of a Multithreaded Architecture”という論文では、「メモリーとロジックを混載させたことで、純粋なロジックほど高速化できず、また純粋なメモリーほどメモリー容量を大きくできないという制約が課せられた」ことと「現状のCyclopsは1MFLOPSの計算能力に対して250バイト程度のストレージしか提供できず、1MFLOPSあたり1MB程度のストレージを提供できる従来型のシステムに比べて見劣りする」ことの2点を、Cyclopsのアーキテクチャー上の制約として示している。
また、高い性能を引き出すためには、とにかくスレッド数を増やすことが重要であると指摘している。
さて、ここまでで気がついた読者もいるかもしれないが、実はCyclops64のチップそのものは存在しない。チップの設計後、そのモデルを搭載したファースト・シミュレーションとラストシミュレーション、場合によってはMr.Clopsを利用してさまざまなアプリケーションを移植した結果を評価する、という形でプロジェクトは遂行された。
GENESISを彷彿させる話だが、結果から言えばインテルのように3D積層のメモリーなどを考えない限り、2007年時点での技術ではワンチップ化にはあまり意味がないということを明確にできたのは、効果的ではあっただろうと思われる。
ちなみにWikipediaでは“The architecture was conceived by Seymour Cray Award winner Monty Denneau, who is currently leading the project.”(アーキテクチャーは、現在プロジェクトの指揮を取っており、シーモアクレイ賞受賞者のMonty Denneauによるものと思われる)と、まだCyclops64プロジェクトが続いているかのように書かれている。
しかし、ほとんどの論文が2006~2007年で、わずかに2009年のものがある程度であり、主要な論文に名前を連ねていたGuang R. Gao主幹教授の現在の研究プロジェクトにはCyclops 64の名前はなく、すでに終了している。
2012年にGao主幹教授が出した“Overview of HPC Computer Architecture:A Long March Toward Exa-Scale Computing and Beyond”というプレゼンテーションによれば、Cyclops64プロジェクトは“2004-2010+”という微妙な表現になっているが、少なくとも2012年9月の時点では終了している。
無理にチップを量産してシステムを作って「やっぱり問題が多かった」と言うよりはずっとスマートな方法ではあったとは思う。
ちなみにプロジェクトの指揮を取っているとされたMonty Denneau氏は2013年にIBMのFellowとなっているが、経歴ではCyclops64ではなくGF-11が前面に出てきているあたりがまたなんとも……という感じではある。
この連載の記事
-
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 -
第757回
PC
「RISC-VはArmに劣る」と主張し猛烈な批判にあうArm RISC-Vプロセッサー遍歴 -
第756回
PC
RISC-Vにとって最大の競合となるArm RISC-Vプロセッサー遍歴 -
第755回
PC
RISC-Vの転機となった中立国への組織移転 RISC-Vプロセッサー遍歴 -
第754回
PC
インテルがCPUの最低価格を82ドルに引き上げ、もう50ドルでは売れない製造コスト問題 インテル CPUロードマップ - この連載の一覧へ