FermiからKeplerへ
さらに演算が高速化
Tesla M2090に続きNVIDIAはKeplerアーキテクチャーをリリースする。最初に発表されたのはコンシューマー向けのGK104で、これはGeForce GTX 680として2014年4月に製品投入される。
ただこのGK104はGPGPU用途はあまり考慮されていないものだった。具体的には、倍精度の浮動小数点演算ハードウェアが搭載されず、またメモリーや2次キャッシュにおけるECCのサポートも省かれていた。
とはいえ、性能そのものは大幅に改善されている。下の画像はNVIDIAがリリースしたGeForce GTX 680のホワイトペーパーからの抜粋だ。
左の画像はチップ単体としてはFermiと比較してずっと消費電力を下げつつ、性能は倍増していることが示されている。右の画像は内部のコアの詳細であるが、色々と手が入っていることがわかる。
もっともFermiからKeplerへの変更はそうした表向きの部分ではなく、むしろシェーダー(NVIDIA用語で言うところのCUDAコア)の構造を簡単化することでシェーダー密度を上げたことの方が大きい。
具体的にはSM(Streaming Multiprocessor)内部の命令デコーダーやスケジューラーの構造が簡素化され、これまでハードウェア側で行なっていた制御の大半はソフトウェアに移された。
これは逆に言えばプログラミング(GPUであればデバイスドライバー、GPGPUであればCUDAで開発すると自動的に組み込まれるプリスケジューラー)が複雑になるわけだが、そうしたオーバーヘッドを増やしても、シェーダーの数そのものを増やしたほうが得策と判断されたわけだ。
またKepler世代では28nmプロセスに移行したことで、コア全体がそれなりの速度で動作する。1GHzクラスまで動作周波数を引き上げても消費電力が極端に増えたりしないと判断されたことで、シェーダーがコア全体と同じ速度で動作するようになった。
この結果、シェーダーは以前ほど高速動作させる必要がなくなり、これにあわせてパイプライン段数を減らしている。これはシェーダの実装に必要なトランジスター数を減らすことにつながり、結果としてシェーダの数をより多く実装できるようになった。
さて、GK104そのものはGPGPU用途を考慮していないと書いたが、KeplerアーキテクチャーはもちろんGPGPUを十分考慮しており、ここからGPUに必要な部分だけを抜き出したのがGK104で、GPGPU用途に向けて作られたのがGK110コアである。
このGK110は2012年の5月に、Tesla K20/K20X向けとして発表され、同年11月に発売された。このGK110と既存の製品を比較したのが下の画像である。
ここで挙げられているDynamic ParallelismやHyper-Qについては、以前GeForce GTX TITANの説明の際に紹介したので今回は割愛するが、これらはいずれもGPGPU向けの機能となる。
またGK104との大きな違いとして、1つのSMXの中に192個のCUDAコアの他、64個のDP Unit(倍精度演算ユニット)を搭載しており(Photo04)、これで大幅に浮動小数点演算性能を改善しているのが特徴である。またメモリーや2次キャッシュにECCの保護機能も搭載された。
→次のページヘ続く (オークリッジ国立研究所のTitanが現役稼働中)

この連載の記事
-
第856回
PC
Rubin Ultra搭載Kyber Rackが放つ100PFlops級ハイスペック性能と3600GB/s超NVLink接続の秘密を解析 -
第855回
PC
配線太さがジュース缶並み!? 800V DC供給で電力損失7~10%削減を可能にする次世代データセンターラック技術 -
第854回
PC
巨大ラジエーターで熱管理! NVIDIA GB200/300搭載NVL72ラックがもたらす次世代AIインフラの全貌 -
第853回
PC
7つのカメラと高度な6DOF・Depthセンサー搭載、Meta Orionが切り開く没入感抜群の新ARスマートグラス技術 -
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ - この連載の一覧へ











