このページの本文へ

GPGPUコンピューティング2010開催

世界最高速クラスなスパコン「TSUBAME 2.0」の作り方

2010年07月17日 09時00分更新

文● 佐久間康仁/ASCII.jp編集部

  • この記事をはてなブックマークに追加
  • 本文印刷
GPUコンピューティング2010会場
ラフォーレミュージアム六本木を会場に行なわれた「GPUコンピューティング2010」。数百人入る会場が、午前10時からぎっしり満員になった

 「GPGPUを載せれば速くなる? そんな単純な物じゃない」――東京工業大学の学術国際情報センターの松岡 聡教授、同じく青木尊之教授が、NVIDIA主催のイベント「GPGPUコンピューティング2010」の基調講演で、現在建設中の世界最高速クラススーパーコンピュータ「TSUBAME 2.0」の高速化の秘密を明かした。


GPGPUを使う理由は高速演算だけじゃない!

デビッド・B.カーク氏
NVIDIAの特別研究員デビッド・B.カーク氏は、高速演算だけじゃないGPGPUの優位性をアピールした

 最初に登壇したNVIDIAの特別研究員、デビッド・B.カーク氏は「GPGPUを使えば高速演算できる。というだけでは、もう驚きではない。GPGPUを使う理由はほかにある」と切り出した。

 世界第2位のスーパーコンピュータ「Dawning Nebulae」(中国)は、4640個のTesla(GPU)を並列演算することで、1.27Pflopsを叩き出す。しかし、現在は単に演算処理性能を競うだけでなく、消費電力あたりの演算処理性能が重視されている。実際、世界第1位の「Jaguar」(米国)のx86系スパコンと比較して、ワットあたりのGflopsが2倍近い高効率(約500Gflops/W)になると例示。そのほか、実装コストの低さや開発・実装期間の短縮にもメリットがあると、GPUベースHPCの優位性を強調した。

 また、GPGPUコンピューティングの教育も重要として、東京工業大学がスパコン「TSUBAME」シリーズを大学中心で開発し、専門教育も実践していることを賞賛した。世界的に見ても334の大学でCUDAプログラミングの教育課程が用意されており、SDKのダウンロード数は20万回を超えたという。


TSUBAME 2.0はGPGPUを載せただけじゃない!

 こうしてカーク氏からバトンタッチする形で、東工大の松岡、青木両教授が、ハードウェア、ソフトウェアの両面からTSUBAME 2.0の開発に携わった苦労を語った。

東工大の松岡 聡教授 同じく青木尊之教授
東工大の松岡 聡教授同じく青木尊之教授

 詳細を説明すると「1冊の本が出せるほど」と前置きして講演では概要の説明にとどめたが、要約すると、GPGPUの高速演算性能を引き出すにはPCI Express(I/O周り)がボトルネックとなる。そこで、ネットワーク、ストレージ、I/O周りをバランスよく高速化することで、「足腰を大幅に強化」したのがポイントだという。ネットワークには光スイッチを、ストレージにはSSDをPB(ペタバイト)級で搭載することにより、GPGPUとCPU(システム)のノード間転送を全般に高速化した。

TSUBAME 2.0のアーキテクチャー 世界のスパコンの進化系
ノード間転送の高速化 TSUBAME 2.0のアーキテクチャー。TSUBAME 1.2までは、世界10位クラスの進化曲線に乗っていたが、2.0でトップクラスに追いついたという。現在はこの設計に合わせて土台(電源や冷却系を含む)の建設を始めている

 青木氏は、そのシステムを利用する事例として、「溶融金属凝固計算」(溶けた金属が固まるときの物理シミュレーション)、「メソスケール大気モデルによる次世代気象計算」などを紹介した。これらは従来、公式を用いた計算手順は研究されていたものの、リアルタイムにパラメーターを入力、再計算すると膨大な計算時間がかかるため、近似的な計算しかできなかった。GPGPUによる高速演算によって、よりリアルなシミュレーションが可能になり、精度の高い予測が実現できる。

溶融金属凝固計算のシミュレーション メソスケール大気モデルによる次世代気象計算
溶融金属凝固計算のシミュレーションメソスケール大気モデルによる次世代気象計算

CUDAって、結局NVIDIA固有の技術でしょ?

CUDAをマルチコアGPUや他社GPU向けに最適化するパス
CUDAプログラムをマルチコアGPUや他社GPU向けに最適化するパスも用意されている

 GPGPUコンピューティングを利用するメリットをさまざまな事例で紹介してきたが、Felmi+CUDAはNVIDIAの固有技術であり、ライバルのAMD(ATI)は業界標準化を目指してOpenCLを提唱している。せっかく開発したプログラムも、OpenCLが標準化されたらムダになってしまうのでは? という疑問にも、カーク氏は心配ないと答える。

 CUDAはC/C++をベースにGPGPU(Felmi)に最適化したプログラム開発を行なう技術(ライブラリ群)だが、それをマルチコアCPUやOpenCLなど、他の技術に最適化するコンバーターも用意されている。安心してCUDAでのアプリケーション開発を進めてほしいとした。

今年9月にはサンノゼで3日間の技術カンファレンスも開催

 GPGPUコンピューティング2010とは、NVIDIAが推進するGPGPUコンピューティング――Felmi(GPUアーキテクチャ)とCUDA(アプリケーション開発技術)の活用事例や協賛各社が紹介する、開発者向けイベント。スポンサーには、GPGPU採用のサーバーを開発・販売する日本IBMや日本HP、デル、GPGPUボードやソリューションを提供するエルザといったハードウェアメーカーのほか、HPC(ハイパフォーマンスコンピューティング)向けOS「Windows HPC Server 2008」やCUDA開発環境としての「Visual Studio」を展示したマイクロソフト、GPGPU向けに最適化されたLinux「Yellow Dog Linux for CUDA」を開発・提供するフィックスターズなど、国内のGPGPU関連企業が名を連ねた。

IBMのGPGPU搭載サーバー デルのPowerEdgeシリーズ
ELSAのApproシリーズ デル(左上)、IBM(右上)、ELSA(左下)などがGPGPUを1U~5U、ブレードなどに最大5つ搭載可能なサーバーを展示。設置面積あたりの処理性能の高さをアピールした
ELSAが出展したNextIOのGPGPU仮想化サーバー
ELSAが出展したNextIOのGPGPUサーバーは、GPGPUソリューションを仮想化して提供する。3つの仮想OS(Linux)上で異なる演算を同時実行してもパフォーマンスが落ちない、というデモを行なった
人の顔を座標化してリアルタイムに立体表示
JCCギミックはGPGPUの高速演算を利用したアプリケーションをデモ。こちらはステレオカメラ(左右2台)で、人の顔を座標化してリアルタイムに立体表示するもの
魚眼レンズの映像を平面化するデモ
同じく日立が出展した、魚眼レンズの映像を平面化するデモ。CPUに処理を切り替えると4~6fpsとカクカクした動きになるが、GPGPUなら14~16fpsのなめらかな動画が得られる

 日本では本日1日かぎりだが、米国・サンノゼで今年9月に3日間に渡るイベント「GPUテクノロジーカンファレンス2010(GTC2010)」を開催するので、興味を持った開発者はぜひ参加してほしい、と日本法人担当副社長のスティーブ・ファーニー・ホウ氏は参加者に語りかけた。


カテゴリートップへ

注目ニュース

最新記事

ASCII.jp特設サイト

ASCII.jpメール デジタルMac/iPodマガジン

ASCII.jp RSS2.0 配信中

ピックアップ

富士通パソコンFMVの直販サイト富士通 WEB MART