世界初のGPUスパコン！東工大のTSUBAME 1.2が公開

2008年12月03日 09時00分更新

文● 小西利明／トレンド編集部

170台のTesla S1070を増設して性能向上を実現した「TSUBAME」

　去る11月、NVIDIAの汎用演算プロセッサー「Tesla」を大量導入した、世界初のスーパーコンピューター（以下スパコン）が東京工業大学（以下東工大）に採用されたという発表がなされた。GPUを汎用演算に使うGPGPU技術が、大規模システムに導入された世界初の事例である。東工大は2日、大岡山キャンパスに設置されたスパコン「TSUBAME」を報道陣に公開。開発の経緯やその性能についてを発表した。

既存システムにTeslaサーバーを合体

　TSUBAMEは2006年に稼働した東工大のスパコンで、デュアルコアOpteron搭載サーバー655台や、ペタバイト級のストレージシステムなどで構成されている。稼働当時の2006年7月にはピーク性能が約85TFLOPSで日本最速。世界のスパコン性能ランキングである「Top500」でも7位という高性能を発揮していた（関連記事）。

　東工大では「みんなのスパコン」をキャッチフレーズに、スパコンの強力な計算能力を、学生や研究者、さらには外部の企業に対しても広く提供している。強力なコンピューティングパワーを用いて高度な科学技術計算を必要とする研究の促進はもちろんのこと、超並列システムを扱える人材の育成という、教育機関ならではの目的も、TSUBAME導入の理由である。

　TSUBAMEは2006年の稼働開始後も、順次アップグレードを繰り返して性能向上を実現していたが、これにNVIDIAのGPUソリューションを組み合わせることで、大幅な性能向上を実現したという。導入されたのは「Tesla S1070 1Uシステム」という1Uラックマウント型サーバーで、これが170台導入された。1台のTesla S1070は、4基のTesla T10プロセッサー（GeForce GTX 200シリーズと同じアーキテクチャー）を搭載しているため、合計で680個のプロセッサーが増設されたことになる。ちなみにシステム全体のインテグレーションは日本電気(株)が担当している。

同じラックに収められたTesla S1070（上の黒いブレード）とSun Fire X4600

TSUBAMEの中核となっている「Sun Fire X4600」。デュアルコアOpteronを8個内蔵する

　Tesla S1070導入後のTSUBAMEは「TSUBAME 1.2」と呼ばれている。170台のTesla S1070導入によって、TSUBAMEの演算能力は約170TFlopsにもなった。2年前の倍以上という高性能化で、その性能は現時点で日本2位、Top500でも29位に位置する（ちなみに、現時点で日本最速は東大の「T2Kオープンスパコン」）。

東工大学術国際情報センターの松岡聡教授（左）と、センター長の渡辺治教授

　TSUBAME構築の中心人物である東工大学術国際情報センターの松岡聡教授はTeslaについて、1プロセッサーで約1TFlopsという高いピーク性能と高速メモリーによる高いメモリーバンド幅で優れた性能を持つと評価。HPC分野にベクトル計算機の復権をもたらすのではないかとしている。また松岡氏はGPUを使う利点について、パソコンで一般的に使われているGPUと同じ技術やソフトウェア開発環境（CUDA）を利用できるという、エコシステム面の共通性を挙げた。

TSUBAME 1.2の構成。Tesla S1070はPCI Express経由でX4600と接続されている

TSUBAMEを構成している各ノードの内容

ベクトル計算機としてのGPUの利点

高速フーリエ変換での性能比較の一例。サーバー向けの汎用CPUはもちろん、NVIDIA GPUはPS3のCPUであるCell B.E.も大きく上回る

CPUとGPUによる演算性能比較の一例。流体シミュレーションの画像化だが、左のCPUがゆっくりと画像が動いているのに対して、GPUによって演算される右は高速に回転していた

　公開されたTSUBAMEのシステムは、ラックに大量に設置された「Sun Fire X4600」の隙間を縫うように、1UサイズのTesla S1070が詰め込まれるという構成となっていた。Tesla S1070 1台は2台のX4600と接続されており、4基あるプロセッサーの2基ずつが、X4600側からコントロールされている。いわばX4600側がホストで、Tesla S1070側はコプロセッサーといった構成だ。

TSUBAMEでは、Tesla S1070の多くが写真のようにX4600同士の隙間に押し込むように装着されている

　システム増設はTSUBAME自体の稼働を止めて行なうことができず、稼働中のシステムの隙を見計らうような形で増設していくという、ある意味アクロバットな作業が行なわれたという。

　TSUBAMEの拡張は今後も継続して行なわれる予定で、2010年頃を目処とする「TSUBAME 2.0」では、1PFlops級の性能を目標としている。ただし消費電力については、コスト面からも現行システムの枠内から大きく増大させるわけにはいかない。コストをかけず、また消費電力を維持しつつ大きな性能向上を実現させるには、消費電力当たりの性能に優れたGPUの活用が、ますます重要になりそうだ。