黒歴史扱いのGeForce GTX 480だが
GPGPUとしては高性能
GF100では内部構造を大幅に変更した。下の画像がGF100の全体の構造だが、4個のGPC(Graphics Processor Cluster)から構成され、各々のGPCは4つのSM(Streaming Multiprocessors)から構成される。
Raster Engine、つまり描画はGPCあたり1組が用意されるが、こちらはGPGPUにはあまり関係がない。そのSMの内部構造が下の画像で、SMあたり64個のCUDAコアと16基のLoad/Store Unit、さらに4つのSFUから構成される。
CUDAコアと呼ばれているものは、SP(Streaming Processor)と呼んでいたものが改名された形だ。ただ、単に名前を変えただけではなく多くの改良点もある。
まず大きいのは倍精度浮動小数点演算のサポートで、単精度の半分の性能での計算が可能になっている。また共有メモリーは64KBに増やされ、同時に実行できるWarp(NVIDIAの用語で、32本のスレッドを一塊にしたプログラム制御の単位)を倍増。さらに内部のアドレスを64bit化して4GBを超えるメモリーも扱えるようになり、整数演算についても一部64bit幅に拡張がなされている。
そのうえGigaThreadと呼ばれる新しいタスク制御用のエンジンを搭載し、コンテキストスイッチングを10倍高速化したり、同時に複数アプリケーションを動かしたり、あるいはスレッドのOut-of-order実行を可能にするなど、G80~GT200世代で問題とされていた項目に対して一定の回答を行っている。Atomic処理に関しても専用の機構を搭載した。
そもそもシェーダー数が多いうえに動作周波数も高くなっているため、当然ながら性能も引きあがる。コンシューマー向けのGeForce GTX 480の場合、16個あるSMの1つを無効化して15SM構成になっていたが、シェーダーの動作速度は1.4GHzに達しており、演算性能はFloatの場合で1.4×15×32×2=1344GFLOPS、Doubleの場合でも半分の672GFLOPSに達しており、これは登場時点でのいかなる製品と比較しても十分に高性能だった。
ただこのGF100をベースにしたGeForce GTX 480は黒歴史扱いされるにふさわしいほど問題の多い製品だった。ピーク性能さえ出れば許容されるコンシューマー向けですら酷評だったわけで、より長時間に渡って高い負荷をかけ続けるHPC向け用途には極めて厳しいものだった。
同じGF100でもTeslaは高評価
NVIDIAがGF100を発表したのは、GeForce GTX 480の発売の4ヵ月ほど前となる2009年11月のこと。TOP500でおなじみSC09の開催にあわせ、ここでTesla C2050/C2070の製品発表を行なった。
ただしこのC2050/2070(と、後にC2075も追加)はいずれもSMが448基とされ、SMの数が14しかない計算になる。動作周波数は1150MHzに抑えられ、一般出荷は2010年5月まで伸びた。
もっともTeslaの場合、広く一般売りというよりは特定の研究機関や大学と契約して随時導入になるので、出荷日そのものはあまり意味を成さない。出荷日前に出荷され、システムに組み込んで評価をしたりソフトウェアの移植を始めたりするからだ。
TeslaのHPCマーケットでの反応は悪くなかった。2010年6月のTOP500で2位に入った中国NSCS(National Supercomputing Centre in Shenzhen:国立スーパーコンピュータセンター深セン)の星雲(Nebulae)というシステムは、「Xeon X5650」×4にTesla C2050を1枚組み合わせたマシンを4640台、Infinibandでつなぐという力技構成で1271.0TFLOPSを実現している。
もっとも理論性能は2984.3TFLOPSなので効率は42.6%とかなり低いし、システム全体の消費電力は2580KWで、性能/消費電力は0.49GFLOPS/Wに過ぎないため、効率はお世辞にもよくない。
ただ、続く2010年11月のTOP500を見ると、TOP5のうち3システムがTesla C2050を使っているほどである。そしてその数はこの後次第に増えていくことになる。
この連載の記事
-
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ