Cyclops64のチップが世に出ることはなく
シミュレーションでプロジェクトが終了
プロジェクトではチップの設計だけでなく、アプリケーションの性能をいかに引き出すかという部分もいろいろと研究された。デラウェア大学のGuang R. Gao主幹教授の論文では、FFT(Fast Fourier Transform:高速フーリエ変換)、LU分解、SCCA2ベンチマークなどで、それなりに高い性能を引き出しやすいことが示されている。
もっとも、必ずしも使いやすいとも言い切れない部分も多分に存在した。同じGao主幹教授も共同執筆者に名を連ねている“Optimization of Dense Matrix Multiplication on IBM Cyclops-64: Challenges and Experiences”という論文では、結論として「データがSRAM内に納まる範囲内では、タイリングやループ除去、レジスター割り当て、命令スケジューリングが最も重要なファクターであり、この際にはスクラッチパッドは煩雑に利用するデータの格納に利用できる」
「ところがデータがSRAMに納まりきらない場合、DRAMの帯域がボトルネックになる。そこでSRAMをDRAMアクセスのバッファとして使い、さらにDRAMアクセスを計算処理とオーバーラップさせるようにすることで、大幅に性能を改善できる」としている。
また、コンパイラに対しては「最内周ループでのレジスター割り当てが最大のポイント」だと指摘している。要するに、アプリケーションを書く際にはデータ量を気にしないといけないということだ。
IBMによる“Dissecting Cyclops:A Detailed Analysis of a Multithreaded Architecture”という論文では、「メモリーとロジックを混載させたことで、純粋なロジックほど高速化できず、また純粋なメモリーほどメモリー容量を大きくできないという制約が課せられた」ことと「現状のCyclopsは1MFLOPSの計算能力に対して250バイト程度のストレージしか提供できず、1MFLOPSあたり1MB程度のストレージを提供できる従来型のシステムに比べて見劣りする」ことの2点を、Cyclopsのアーキテクチャー上の制約として示している。
また、高い性能を引き出すためには、とにかくスレッド数を増やすことが重要であると指摘している。
さて、ここまでで気がついた読者もいるかもしれないが、実はCyclops64のチップそのものは存在しない。チップの設計後、そのモデルを搭載したファースト・シミュレーションとラストシミュレーション、場合によってはMr.Clopsを利用してさまざまなアプリケーションを移植した結果を評価する、という形でプロジェクトは遂行された。
GENESISを彷彿させる話だが、結果から言えばインテルのように3D積層のメモリーなどを考えない限り、2007年時点での技術ではワンチップ化にはあまり意味がないということを明確にできたのは、効果的ではあっただろうと思われる。
ちなみにWikipediaでは“The architecture was conceived by Seymour Cray Award winner Monty Denneau, who is currently leading the project.”(アーキテクチャーは、現在プロジェクトの指揮を取っており、シーモアクレイ賞受賞者のMonty Denneauによるものと思われる)と、まだCyclops64プロジェクトが続いているかのように書かれている。
しかし、ほとんどの論文が2006~2007年で、わずかに2009年のものがある程度であり、主要な論文に名前を連ねていたGuang R. Gao主幹教授の現在の研究プロジェクトにはCyclops 64の名前はなく、すでに終了している。
2012年にGao主幹教授が出した“Overview of HPC Computer Architecture:A Long March Toward Exa-Scale Computing and Beyond”というプレゼンテーションによれば、Cyclops64プロジェクトは“2004-2010+”という微妙な表現になっているが、少なくとも2012年9月の時点では終了している。
無理にチップを量産してシステムを作って「やっぱり問題が多かった」と言うよりはずっとスマートな方法ではあったとは思う。
ちなみにプロジェクトの指揮を取っているとされたMonty Denneau氏は2013年にIBMのFellowとなっているが、経歴ではCyclops64ではなくGF-11が前面に出てきているあたりがまたなんとも……という感じではある。

この連載の記事
-
第813回
PC
Granite Rapid-DことXeon 6 SoCを12製品発表、HCCとXCCの2種類が存在する インテル CPUロードマップ -
第812回
PC
2倍の帯域をほぼ同等の電力で実現するTSMCのHPC向け次世代SoIC IEDM 2024レポート -
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート - この連載の一覧へ