FermiからKeplerへ
さらに演算が高速化
Tesla M2090に続きNVIDIAはKeplerアーキテクチャーをリリースする。最初に発表されたのはコンシューマー向けのGK104で、これはGeForce GTX 680として2014年4月に製品投入される。
ただこのGK104はGPGPU用途はあまり考慮されていないものだった。具体的には、倍精度の浮動小数点演算ハードウェアが搭載されず、またメモリーや2次キャッシュにおけるECCのサポートも省かれていた。
とはいえ、性能そのものは大幅に改善されている。下の画像はNVIDIAがリリースしたGeForce GTX 680のホワイトペーパーからの抜粋だ。
左の画像はチップ単体としてはFermiと比較してずっと消費電力を下げつつ、性能は倍増していることが示されている。右の画像は内部のコアの詳細であるが、色々と手が入っていることがわかる。
もっともFermiからKeplerへの変更はそうした表向きの部分ではなく、むしろシェーダー(NVIDIA用語で言うところのCUDAコア)の構造を簡単化することでシェーダー密度を上げたことの方が大きい。
具体的にはSM(Streaming Multiprocessor)内部の命令デコーダーやスケジューラーの構造が簡素化され、これまでハードウェア側で行なっていた制御の大半はソフトウェアに移された。
これは逆に言えばプログラミング(GPUであればデバイスドライバー、GPGPUであればCUDAで開発すると自動的に組み込まれるプリスケジューラー)が複雑になるわけだが、そうしたオーバーヘッドを増やしても、シェーダーの数そのものを増やしたほうが得策と判断されたわけだ。
またKepler世代では28nmプロセスに移行したことで、コア全体がそれなりの速度で動作する。1GHzクラスまで動作周波数を引き上げても消費電力が極端に増えたりしないと判断されたことで、シェーダーがコア全体と同じ速度で動作するようになった。
この結果、シェーダーは以前ほど高速動作させる必要がなくなり、これにあわせてパイプライン段数を減らしている。これはシェーダの実装に必要なトランジスター数を減らすことにつながり、結果としてシェーダの数をより多く実装できるようになった。
さて、GK104そのものはGPGPU用途を考慮していないと書いたが、KeplerアーキテクチャーはもちろんGPGPUを十分考慮しており、ここからGPUに必要な部分だけを抜き出したのがGK104で、GPGPU用途に向けて作られたのがGK110コアである。
このGK110は2012年の5月に、Tesla K20/K20X向けとして発表され、同年11月に発売された。このGK110と既存の製品を比較したのが下の画像である。
ここで挙げられているDynamic ParallelismやHyper-Qについては、以前GeForce GTX TITANの説明の際に紹介したので今回は割愛するが、これらはいずれもGPGPU向けの機能となる。
またGK104との大きな違いとして、1つのSMXの中に192個のCUDAコアの他、64個のDP Unit(倍精度演算ユニット)を搭載しており(Photo04)、これで大幅に浮動小数点演算性能を改善しているのが特徴である。またメモリーや2次キャッシュにECCの保護機能も搭載された。
→次のページヘ続く (オークリッジ国立研究所のTitanが現役稼働中)
この連載の記事
-
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 -
第757回
PC
「RISC-VはArmに劣る」と主張し猛烈な批判にあうArm RISC-Vプロセッサー遍歴 - この連載の一覧へ