東京大学、世界最高速のスーパーコンピューターへの搭載を目的とした高速プロセッサーを開発

2006年11月06日 23時07分更新

文● 編集部小林久

“2008年までに2ペタFLOPS”を目標に、東京大学などが中心になって研究している、世界最速のスーパーコンピューターの開発プロジェクト“GRAPE-DR”。その成果となる汎用プロセッサーのエンジニアリングサンプルが、6日、報道関係者に公開された。


GRAPE-DRプロセッサーを手にする東京大学の平木教授

5000万円で地球シミュレーター並みの性能


GRAPE-DRプロセッサー。プロセスルールは90nmで、台湾TSMCが製造した。17mm角のBGAパッケージとなる。トランジスター数は約3億個。チップのサイズは米AMD社のOpteronプロセッサーとほぼ同等だという

今回公開されたGRAPE-DRプロセッサーは、1チップに512個の要素プロセッサーを搭載し、500MHzの動作速度で、512ギガFLOPS(単精度)/384ギガFLOPS(倍精度)の性能が得られる。現状では、1プロセッサーを搭載したボードしかないが、2006年度中に同チップを4つ搭載可能なプロセッサーボードを開発するという。

1チップあたり512個という要素プロセッサーの数は、米ClearSpeed Technology社のCSX-600(96個)、米IBM社のCyclops(64個)などを大きく上回る世界最高数。チップ当たりの演算性能も、ソニー(株)とIBMが共同開発した“Cell”の256ギガFLOPS(単精度)/25ギガFLOPS(倍精度)、CSX-600の48ギガFLOPS(単/倍精度)、日本電気(株)が開発したSX-8Rの32ギガFLOPS(単/倍精度)、IA32プロセッサーの16ギガFLOPS前後(単/倍精度)などを大きく引き離した性能となっている。

消費電力は最大60W(アイドル時で30W)で、1ワット当たりの演算性能は8.5ギガFLOPS。これもCSX-600の2.5ギガFLOPS、日本電気のSX-8の0.2ギガFLOPSを上回る。開発費に関しても2004年から2008年までの5年間で約15億円とこの種のプロジェクトしては非常に安価に抑えた。


32個の要素プロセッサーからなるブロックを4×4ブロック配置。各要素プロセッサーは基本的な演算に必要なシンプルなものにした

東京大学情報理工学系研究科創造情報学専攻の平木敬(ひらきけい)教授は「“地球シミュレータ”(海洋科学技術センターが保有する、ベクトル型並列スーパーコンピューター)と同程度の性能(約40テラFLOPS)が、100個のGRAPE-DRプロセッサーとラック1本、5000万円の予算、20kWの消費電力で実現できる」と話す。「40テラFLOPSの性能があっても、100人で使えば100分の1の性能になってしまう。しかし、こういったコンピューターはみんなで使わないと意味がないものという矛盾がある。(5000万円という値段であれば)置けない値段ではない」(平木氏)。

低コストを実現できた理由は、インテルアーキテクチャを採用したパソコンへのアクセラレーターとしたため。これにより設計期間の短縮と設計コストの低減が可能になった。また、メモリーバンド幅を有効活用する基本設計を行なっており、メモリーコストを下げられる点も低コストの理由のひとつだという。

GRAPE-DRプロセッサーを搭載したアクセラレーターボードはPCI-X(将来的にはPCI Express)でパソコン(ホストマシン)に装着する。命令やデータは、ホストマシンからFPGAの制御プロセッサーを介してプロセッサーに配布され、その結果がホストマシンのメインメモリーに返される。プロセッサー要素へのデータ分散、プロセッサー要素での計算、結果回収の3フェーズはパイプライン化することが可能。

“ペタFLOPS”を世界最初に実現できるか？


スーパーコンピューターの性能は今後も伸び続け、2011年の段階で世界一になるためには、20ペタFLOPS程度の性能が必要と平木教授

平木教授は「(チップが試作できたことで)世界最初のペタFLOPSを目指すという目標に対して、少なくとも具体的なスケジュールを考えられる段階になった」と語る。

同プロジェクトでは2008年に向け、2ペタFLOPSの“GRAPE-DRシステム”を開発する計画だ。ペタFLOPSクラスの性能を狙った汎用システムとしては、IBMのBlueGene/P、Roadrunner、Cyclops、米クレイ社のBakerなどが研究中で、2008～2009年にかけて順次登場してくる見込みである。GRAPE-DRシステムは、これらのスーパーコンピューターと世界最速の座を競うことになる。

2ペタFLOPSを実現するために、同システムでは4000個のGRAPE-DRプロセッサーを使用し、512台の汎用クラスタリングサーバーとインターコネクトを約40ラックに収納するという構成を取る。消費電力に関しては500kW程度になる見込み。

また、プロセッサーの開発と並行して、GRAPE-DRに最適化されたコンパイラーも開発中。C言語で記述されたソースを中間言語に変換して、GRAPE-DRコードに変換するプロトタイプが現在動作中だという。

GRAPE-DRの応用分野に関しては、天体多体シミュレーション、分子動力学(MD)、流体シミュレーション(SPH)、Linpack、線形方程式などが演算性能を使い切れる分野として最適。ナノテクノロジーのシミュレーションや量子分子シミュレーション(FMO、RSDFTなど)も有効な分野だという。一方で、メモリーアクセスなどがボトルネックとなる古典的流体シミュレーションやベクトル計算機向けにチューニングされたソフトに関しては苦手な分野になるという。


評価用ボードは現状で2種類。違いはメモリースロットの有無。2006年度中に、4プロセッサーが搭載可能なボードも開発する

また、今後の計画に関して平木教授は、プロセッサーチップを現行の90nmから45nmプロセスにシュリンクすることで、1チップで3～4テラFLOPS、システム全体で20～40ペタFLOPSのシステムを“今から始めれば”2010年ごろに実現可能とした。ただし、現状では予算獲得に奔走中という段階で、50億円程度の予算を出してくれるスポンサーを探している段階だという。