TSUBAME 1.0に採用された
CS301の後継「CSX600」
2年後の2005年11月に開催されたSC05で、同社はCSX600を披露する。CSX600は、まずPEの数を96+8個に増やしたうえ、各々のPEで倍精度浮動小数点を扱えるように改善した。また動作周波数もやや引き上げて250MHzを目指している。
とはいえ、最終的には210MHzになったのはCS301と同じくIBMの0.13μ FSGプロセスを使ったからであろう。この結果ピーク性能は50GFLOPSではなく40.32GFLOPSになっている。
外部メモリーはECC付きのDDR2になった。ちなみにPEの96+8個というのは、8個の冗長PEが用意されている(プログラムから使えるのは96個のみ)の意味である。
実際に利用する際には、チップ単体ではなく下の画像のように2つのCSX600が搭載された拡張カードをホストに装着することになった。
当時はまだサーバー用途にはPCI-Xを使うケースも多く、それもあって2種類のカードが提供された。ちなみにヒートシンクが付いているのはI/Fを担うFPGAチップで、CSX600そのものはヒートシンクなしで動作する程度の消費電力であった。
もっとも放熱性の高いメタルパッケージだったからOKという話であって、安価なプラスチックパッケージを使ったら間違いなくヒートシンクが必要だっただろう。
さて、そのCSX600はどうだったのか? 上の画像にもあるように、1チップで40.32GFLOPS。2チップ構成では80.64GFLOPSの性能をたたき出すとされ、これは当時のいかなるアクセラレーターよりも高速であった。
これもあり、東京工業大学では松岡聡教授が中心となって構築されたTSUBAME 1.0にこのCSX600が採用される。TSUBAME 1.0は655ノード・5240プロセッサーのOpteron Dual Core(2.4GHzないし2.6GHz)に360枚(後に648枚に増設)のCSX600アクセラレーターカードを組み合わせたハイブリッド構成となった。
このTUBAME 1.0のTOP500にレポートされた成績を見てみると以下のようになっている。
TUBAME 1.0の成績 | ||||||
---|---|---|---|---|---|---|
時期 | 実効性能 | 理論性能 | TOP500順位 | |||
2006年6月 | 31.18TFLOPS | 49.87TFLOPS | 7位 | |||
2006年11月 | 47.40TFLOPS | 78.80TFLOPS | 9位 | |||
2007年6月 | 48.90TFLOPS | 82.10TFLOPS | 14位 | |||
2007年11月 | 56.43TFLOPS | 102.02TFLOPS | 16位 |
2006年6月の結果はOpteronのみのもの、次の2つがCSX600を360枚増設した状態の結果、最後の2007年11月のものがCSX600を648枚まで増やした結果と思われるが、CSX600は理論性能こそ跳ね上がるものの、実効性能があまり上がらないことがわかる。
これはなぜか? という問いに対する間接的な回答は、東京工業大学自身が公開している。同大学が公開しているTSUBAME ESJのVol.2には「TSUBAME 2.0始まる TSUBAME 1.0 から2.0への長い道のり(前編)」という記事が掲載されており、この中でTSUBAME1の光と影と題した文章が含まれている。
正確にはこの文章をお読みいただくのが良いと思うが、メリットとして大規模な密結合の行列演算は、ライブラリーの指定とコマンドラインオプションだけで性能が倍以上になったものの、逆に密結合の行列演算以外に関してはプログラミングが困難・メモリーバンド幅不足・メモリー容量不足の三重苦でほとんど活用できなかったとのことだ。結局TSUBAMEはこのあとNVIDIAのGPUの活用に急速に切り替えていくことになる。
話をCSX600に戻すと、結局ClearSpeedは東京工業大学以外に大きな顧客を捕まえることはできなかった。同社はさらなる性能改善を目指し、CSX600×2+PCI Experss x16 I/Fをワンチップに収めたCSX700を2008年に発表する。
プロセスは同じIBMの90nmプロセスに微細化されたが、動作周波数は相変わらず250MHzどまりで、それほど性能を上げることはできず、こちらを採用した例もほとんどなかった。
これとは別に、同社はBAE SystemsにCSX600をライセンス供与、BAE Systemsはこれを利用してRADSPEEDという耐放射線強化版のCSX600を作成、航空宇宙分野に向けて提供している。こちらは主要な顧客が軍関係ということもあって詳細は不明だが、少なくともClearSpeedの業績を支えるほどは売れなかったようだ。
2009年に同社は大規模なリストラを行ない、同時にCEOも辞任。6月には上場も廃止、2010年には米国オフィスも閉鎖している。といってもまだ同社は存続しており、CSX700の製品ページすらある。FAQページによれば、まだ同社からCSX700を購入することは可能らしいが、すでにSDKなどのサポートはすべて終了しており、どこまで意味があるのかは謎である。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ