FermiからKeplerへ
さらに演算が高速化
Tesla M2090に続きNVIDIAはKeplerアーキテクチャーをリリースする。最初に発表されたのはコンシューマー向けのGK104で、これはGeForce GTX 680として2014年4月に製品投入される。
ただこのGK104はGPGPU用途はあまり考慮されていないものだった。具体的には、倍精度の浮動小数点演算ハードウェアが搭載されず、またメモリーや2次キャッシュにおけるECCのサポートも省かれていた。
とはいえ、性能そのものは大幅に改善されている。下の画像はNVIDIAがリリースしたGeForce GTX 680のホワイトペーパーからの抜粋だ。
左の画像はチップ単体としてはFermiと比較してずっと消費電力を下げつつ、性能は倍増していることが示されている。右の画像は内部のコアの詳細であるが、色々と手が入っていることがわかる。
もっともFermiからKeplerへの変更はそうした表向きの部分ではなく、むしろシェーダー(NVIDIA用語で言うところのCUDAコア)の構造を簡単化することでシェーダー密度を上げたことの方が大きい。
具体的にはSM(Streaming Multiprocessor)内部の命令デコーダーやスケジューラーの構造が簡素化され、これまでハードウェア側で行なっていた制御の大半はソフトウェアに移された。
これは逆に言えばプログラミング(GPUであればデバイスドライバー、GPGPUであればCUDAで開発すると自動的に組み込まれるプリスケジューラー)が複雑になるわけだが、そうしたオーバーヘッドを増やしても、シェーダーの数そのものを増やしたほうが得策と判断されたわけだ。
またKepler世代では28nmプロセスに移行したことで、コア全体がそれなりの速度で動作する。1GHzクラスまで動作周波数を引き上げても消費電力が極端に増えたりしないと判断されたことで、シェーダーがコア全体と同じ速度で動作するようになった。
この結果、シェーダーは以前ほど高速動作させる必要がなくなり、これにあわせてパイプライン段数を減らしている。これはシェーダの実装に必要なトランジスター数を減らすことにつながり、結果としてシェーダの数をより多く実装できるようになった。
さて、GK104そのものはGPGPU用途を考慮していないと書いたが、KeplerアーキテクチャーはもちろんGPGPUを十分考慮しており、ここからGPUに必要な部分だけを抜き出したのがGK104で、GPGPU用途に向けて作られたのがGK110コアである。
このGK110は2012年の5月に、Tesla K20/K20X向けとして発表され、同年11月に発売された。このGK110と既存の製品を比較したのが下の画像である。
ここで挙げられているDynamic ParallelismやHyper-Qについては、以前GeForce GTX TITANの説明の際に紹介したので今回は割愛するが、これらはいずれもGPGPU向けの機能となる。
またGK104との大きな違いとして、1つのSMXの中に192個のCUDAコアの他、64個のDP Unit(倍精度演算ユニット)を搭載しており(Photo04)、これで大幅に浮動小数点演算性能を改善しているのが特徴である。またメモリーや2次キャッシュにECCの保護機能も搭載された。
→次のページヘ続く (オークリッジ国立研究所のTitanが現役稼働中)
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第878回
PC
もはや銅配線は限界? 3200Gイーサネット実現に立ちはだかる200GT/秒の壁 -
第877回
PC
「不良品ゼロ」と「水冷NG」の狭間で。ルネサスが明かした車載チップレットSoCのリアル -
第876回
PC
このままではメモリーが燃える! HBM4/5世代に向けた電力供給の限界と、Samsungが示すパッケージ協調設計の解 -
第875回
PC
1000A超のAIプロセッサーをどう動かすか? Googleが実践する垂直給電(VPD)の最前線 -
第874回
PC
AIの未来は「電力」で決まる? 巨大GPUを支える裏面給電とパッケージ革命 -
第873回
PC
「銅配線はまだ重要か? 答えはYesだ」 NVIDIA CEOジェンスンが語った2028年ロードマップとNVLink 8の衝撃 -
第872回
PC
NVIDIAのRubin UltraとKyber Rackの深層 プロトタイプから露見した設計刷新とNVLinkの物理的限界 -
第871回
PC
GTC 2026激震! 突如現れたGroq 3と消えたRubin CPX。NVIDIAの推論戦略を激変させたTSMCの逼迫とメモリー高騰 -
第870回
PC
スマホCPUの王者が挑む「脱・裏方」宣言。Arm初の自社販売チップAGI CPUは世界をどう変えるか? -
第869回
PC
半導体プロセスの新たな覇権! インテルのDNNプロセッサーはAMDやMetaを凌駕する配線密度と演算密度 -
第868回
PC
物理IPには真似できない4%の差はどこから生まれるか? RTL実装が解き放つDimensity 9500の真価 - この連載の一覧へ











