TSUBAME 1.0に採用された
CS301の後継「CSX600」
2年後の2005年11月に開催されたSC05で、同社はCSX600を披露する。CSX600は、まずPEの数を96+8個に増やしたうえ、各々のPEで倍精度浮動小数点を扱えるように改善した。また動作周波数もやや引き上げて250MHzを目指している。
とはいえ、最終的には210MHzになったのはCS301と同じくIBMの0.13μ FSGプロセスを使ったからであろう。この結果ピーク性能は50GFLOPSではなく40.32GFLOPSになっている。
外部メモリーはECC付きのDDR2になった。ちなみにPEの96+8個というのは、8個の冗長PEが用意されている(プログラムから使えるのは96個のみ)の意味である。
実際に利用する際には、チップ単体ではなく下の画像のように2つのCSX600が搭載された拡張カードをホストに装着することになった。
当時はまだサーバー用途にはPCI-Xを使うケースも多く、それもあって2種類のカードが提供された。ちなみにヒートシンクが付いているのはI/Fを担うFPGAチップで、CSX600そのものはヒートシンクなしで動作する程度の消費電力であった。
もっとも放熱性の高いメタルパッケージだったからOKという話であって、安価なプラスチックパッケージを使ったら間違いなくヒートシンクが必要だっただろう。
さて、そのCSX600はどうだったのか? 上の画像にもあるように、1チップで40.32GFLOPS。2チップ構成では80.64GFLOPSの性能をたたき出すとされ、これは当時のいかなるアクセラレーターよりも高速であった。
これもあり、東京工業大学では松岡聡教授が中心となって構築されたTSUBAME 1.0にこのCSX600が採用される。TSUBAME 1.0は655ノード・5240プロセッサーのOpteron Dual Core(2.4GHzないし2.6GHz)に360枚(後に648枚に増設)のCSX600アクセラレーターカードを組み合わせたハイブリッド構成となった。
このTUBAME 1.0のTOP500にレポートされた成績を見てみると以下のようになっている。
| TUBAME 1.0の成績 | ||||||
|---|---|---|---|---|---|---|
| 時期 | 実効性能 | 理論性能 | TOP500順位 | |||
| 2006年6月 | 31.18TFLOPS | 49.87TFLOPS | 7位 | |||
| 2006年11月 | 47.40TFLOPS | 78.80TFLOPS | 9位 | |||
| 2007年6月 | 48.90TFLOPS | 82.10TFLOPS | 14位 | |||
| 2007年11月 | 56.43TFLOPS | 102.02TFLOPS | 16位 | |||
2006年6月の結果はOpteronのみのもの、次の2つがCSX600を360枚増設した状態の結果、最後の2007年11月のものがCSX600を648枚まで増やした結果と思われるが、CSX600は理論性能こそ跳ね上がるものの、実効性能があまり上がらないことがわかる。
これはなぜか? という問いに対する間接的な回答は、東京工業大学自身が公開している。同大学が公開しているTSUBAME ESJのVol.2には「TSUBAME 2.0始まる TSUBAME 1.0 から2.0への長い道のり(前編)」という記事が掲載されており、この中でTSUBAME1の光と影と題した文章が含まれている。
正確にはこの文章をお読みいただくのが良いと思うが、メリットとして大規模な密結合の行列演算は、ライブラリーの指定とコマンドラインオプションだけで性能が倍以上になったものの、逆に密結合の行列演算以外に関してはプログラミングが困難・メモリーバンド幅不足・メモリー容量不足の三重苦でほとんど活用できなかったとのことだ。結局TSUBAMEはこのあとNVIDIAのGPUの活用に急速に切り替えていくことになる。
話をCSX600に戻すと、結局ClearSpeedは東京工業大学以外に大きな顧客を捕まえることはできなかった。同社はさらなる性能改善を目指し、CSX600×2+PCI Experss x16 I/Fをワンチップに収めたCSX700を2008年に発表する。
プロセスは同じIBMの90nmプロセスに微細化されたが、動作周波数は相変わらず250MHzどまりで、それほど性能を上げることはできず、こちらを採用した例もほとんどなかった。
これとは別に、同社はBAE SystemsにCSX600をライセンス供与、BAE Systemsはこれを利用してRADSPEEDという耐放射線強化版のCSX600を作成、航空宇宙分野に向けて提供している。こちらは主要な顧客が軍関係ということもあって詳細は不明だが、少なくともClearSpeedの業績を支えるほどは売れなかったようだ。
2009年に同社は大規模なリストラを行ない、同時にCEOも辞任。6月には上場も廃止、2010年には米国オフィスも閉鎖している。といってもまだ同社は存続しており、CSX700の製品ページすらある。FAQページによれば、まだ同社からCSX700を購入することは可能らしいが、すでにSDKなどのサポートはすべて終了しており、どこまで意味があるのかは謎である。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











