1ヵ月ぶりのスーパーコンピューターの系譜である。前回はASC Purpleまで説明したが、今回はASCI/ASC系列から外れる製品の話をする。それはIBMのBlue Geneにつながる、QCDOCだ。
IBMが1PFLOPSを目指して作った
超並列マシン「Blue Gene」
IBMはASCI/ASCにASCI Blue PacificやASCI White、ASC Purpleといった系列の製品を投入し続けたが、これらはいずれもPOWERプロセッサーをベースとしたSMP(Symmetric Multiprocessing:対称型マルチプロセッシング)+クラスター構成のマシンである。
ところが、これとは別にIBMではMPP(Massively Parallel Processing:超並列)ベースのシステムも開発を行なっていた。これを両方開発できるあたりがIBMの底力と言うべきだろう。
このMPPを全面的に採用したのが、1999年に開発が発表されたBlue Geneである。これは1億ドル規模を費やし、1PFLOPSのマシンを構築するもので、目的はProtein Folding(たんぱく質の折りたたみ構造)の解析にある(関連リンク)。
これがどんなものかの説明は省くので、興味ある方はWikipediaなどを見ていただくとして、とにかく解析のためには膨大な計算量が必要であり、このために高いコンピューター性能が必要とされた分野である。
流石に1PFLOPSを一発で構成するのは無理であり、当初開発されたBlue Gene/Lはピークで360TFLOPSを狙い、1PFLOPSはその後継のBlue Gene/Pで実現することになった。
Blue Geneの起源は
量子色力学シミュレーション用の「QCDOC」
このBlue Geneシリーズだが、元になったのはIBMが英エディンバラ大、米コロンビア大、理研BNL研究センターと共同で開発したQCDOCというマシンである。
この名前はQuantum ChromoDynamics On a Chipの頭文字をとったもので、Quantum ChromoDynamics(量子色力学)のシミュレーションを行なうために設計されたものである。
もっともQuantum ChromoDynamics向けの設計といっても、プロセッサーそのものはごく普通のPowerPCコアである。ではどの辺が独特かというと、運用コストを低く抑えることに留意していた点だ。
核兵器シミュレーションを目的としたASCI/ASCはなにしろ予算が潤沢だったため、システムコストもさることながら運用コストがバカ高くてもそれほど問題はなかった。
例えばASC Purpleの場合、システムそのものの消費電力が7.5MWだった(関連リンク)。やや後の数字になるが、2005年頃の相場では、平均して電気代は0.12ドル/KWh程度とされており、24時間365日稼動させた場合の電気代は788万4000ドルとなる。
つまり年間のシステムの電気代だけで8億円ほど、これに空調のための電気代や設備の照明装置などを加えるとおおむね月あたり1億円くらいになるだろう。
ちなみにこれはあくまで電気代だけの話で、メンテナンス費用を含む全体ではもっと膨大な金額になると予想される。これは到底、大学や民間研究機関単体で維持できるものではない。
また初期費用もASCI/ASCシステムは別格の規模であり、大学などではもう1~2桁落とした金額が求められる。
QCDOCの前身はコスパに優れる
「QCDSP」
QCDOCの前身が、1993年から開発されていたQCDSPと呼ばれるマシンである。これはTIのTMS320C31という50MHz駆動のDSP(Digital Signal Processor)に、2次元メッシュネットワーク用のカスタムチップ、それと2560KBのDRAMをSO-DIMM上に搭載したものである。
TMS320C31は50MHz駆動で50MFLOPSの浮動小数点演算(ただし32/40bitなので、倍精度ではなく単精度)を行なえるDSPチップ。このTMS320C31を搭載したモジュールを64ノード集積すると約3GFLOPSの演算性能になる。
コロンビア大は最大8192ノードで400GFLOPSのQCDSPマシンを、理研BNL研究センターは12288ノードで600GFLOPSのQCDSPマシンをそれぞれ構築している。
コストパフォーマンスという点では非常に優秀なQCDSPであったし、価格も安かった。コロンビア大の場合、1997年~1998年の2年間で64ノードから8192ノードまで強化したが、トータルのコストは180万ドル程度、うち部品代は120万ドル未満だったようだ。実際、1998年にQCDSPはゴードンベル賞を受賞している。
しかし、DSP単体の性能は1チップあたり50MFLOPSとそれほど高くないうえ、ノード数もそろそろ上限だったため、より高性能な解決案が必要とされた。
→次のページヘ続く (部品点数を抑えて低コスト化を実現)
この連載の記事
-
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ