FermiからKeplerへ
さらに演算が高速化
Tesla M2090に続きNVIDIAはKeplerアーキテクチャーをリリースする。最初に発表されたのはコンシューマー向けのGK104で、これはGeForce GTX 680として2014年4月に製品投入される。
ただこのGK104はGPGPU用途はあまり考慮されていないものだった。具体的には、倍精度の浮動小数点演算ハードウェアが搭載されず、またメモリーや2次キャッシュにおけるECCのサポートも省かれていた。
とはいえ、性能そのものは大幅に改善されている。下の画像はNVIDIAがリリースしたGeForce GTX 680のホワイトペーパーからの抜粋だ。
左の画像はチップ単体としてはFermiと比較してずっと消費電力を下げつつ、性能は倍増していることが示されている。右の画像は内部のコアの詳細であるが、色々と手が入っていることがわかる。
もっともFermiからKeplerへの変更はそうした表向きの部分ではなく、むしろシェーダー(NVIDIA用語で言うところのCUDAコア)の構造を簡単化することでシェーダー密度を上げたことの方が大きい。
具体的にはSM(Streaming Multiprocessor)内部の命令デコーダーやスケジューラーの構造が簡素化され、これまでハードウェア側で行なっていた制御の大半はソフトウェアに移された。
これは逆に言えばプログラミング(GPUであればデバイスドライバー、GPGPUであればCUDAで開発すると自動的に組み込まれるプリスケジューラー)が複雑になるわけだが、そうしたオーバーヘッドを増やしても、シェーダーの数そのものを増やしたほうが得策と判断されたわけだ。
またKepler世代では28nmプロセスに移行したことで、コア全体がそれなりの速度で動作する。1GHzクラスまで動作周波数を引き上げても消費電力が極端に増えたりしないと判断されたことで、シェーダーがコア全体と同じ速度で動作するようになった。
この結果、シェーダーは以前ほど高速動作させる必要がなくなり、これにあわせてパイプライン段数を減らしている。これはシェーダの実装に必要なトランジスター数を減らすことにつながり、結果としてシェーダの数をより多く実装できるようになった。
さて、GK104そのものはGPGPU用途を考慮していないと書いたが、KeplerアーキテクチャーはもちろんGPGPUを十分考慮しており、ここからGPUに必要な部分だけを抜き出したのがGK104で、GPGPU用途に向けて作られたのがGK110コアである。
このGK110は2012年の5月に、Tesla K20/K20X向けとして発表され、同年11月に発売された。このGK110と既存の製品を比較したのが下の画像である。
ここで挙げられているDynamic ParallelismやHyper-Qについては、以前GeForce GTX TITANの説明の際に紹介したので今回は割愛するが、これらはいずれもGPGPU向けの機能となる。
またGK104との大きな違いとして、1つのSMXの中に192個のCUDAコアの他、64個のDP Unit(倍精度演算ユニット)を搭載しており(Photo04)、これで大幅に浮動小数点演算性能を改善しているのが特徴である。またメモリーや2次キャッシュにECCの保護機能も搭載された。
→次のページヘ続く (オークリッジ国立研究所のTitanが現役稼働中)
この連載の記事
-
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ