FermiからKeplerへ
さらに演算が高速化
Tesla M2090に続きNVIDIAはKeplerアーキテクチャーをリリースする。最初に発表されたのはコンシューマー向けのGK104で、これはGeForce GTX 680として2014年4月に製品投入される。
ただこのGK104はGPGPU用途はあまり考慮されていないものだった。具体的には、倍精度の浮動小数点演算ハードウェアが搭載されず、またメモリーや2次キャッシュにおけるECCのサポートも省かれていた。
とはいえ、性能そのものは大幅に改善されている。下の画像はNVIDIAがリリースしたGeForce GTX 680のホワイトペーパーからの抜粋だ。
左の画像はチップ単体としてはFermiと比較してずっと消費電力を下げつつ、性能は倍増していることが示されている。右の画像は内部のコアの詳細であるが、色々と手が入っていることがわかる。
もっともFermiからKeplerへの変更はそうした表向きの部分ではなく、むしろシェーダー(NVIDIA用語で言うところのCUDAコア)の構造を簡単化することでシェーダー密度を上げたことの方が大きい。
具体的にはSM(Streaming Multiprocessor)内部の命令デコーダーやスケジューラーの構造が簡素化され、これまでハードウェア側で行なっていた制御の大半はソフトウェアに移された。
これは逆に言えばプログラミング(GPUであればデバイスドライバー、GPGPUであればCUDAで開発すると自動的に組み込まれるプリスケジューラー)が複雑になるわけだが、そうしたオーバーヘッドを増やしても、シェーダーの数そのものを増やしたほうが得策と判断されたわけだ。
またKepler世代では28nmプロセスに移行したことで、コア全体がそれなりの速度で動作する。1GHzクラスまで動作周波数を引き上げても消費電力が極端に増えたりしないと判断されたことで、シェーダーがコア全体と同じ速度で動作するようになった。
この結果、シェーダーは以前ほど高速動作させる必要がなくなり、これにあわせてパイプライン段数を減らしている。これはシェーダの実装に必要なトランジスター数を減らすことにつながり、結果としてシェーダの数をより多く実装できるようになった。
さて、GK104そのものはGPGPU用途を考慮していないと書いたが、KeplerアーキテクチャーはもちろんGPGPUを十分考慮しており、ここからGPUに必要な部分だけを抜き出したのがGK104で、GPGPU用途に向けて作られたのがGK110コアである。
このGK110は2012年の5月に、Tesla K20/K20X向けとして発表され、同年11月に発売された。このGK110と既存の製品を比較したのが下の画像である。
ここで挙げられているDynamic ParallelismやHyper-Qについては、以前GeForce GTX TITANの説明の際に紹介したので今回は割愛するが、これらはいずれもGPGPU向けの機能となる。
またGK104との大きな違いとして、1つのSMXの中に192個のCUDAコアの他、64個のDP Unit(倍精度演算ユニット)を搭載しており(Photo04)、これで大幅に浮動小数点演算性能を改善しているのが特徴である。またメモリーや2次キャッシュにECCの保護機能も搭載された。
→次のページヘ続く (オークリッジ国立研究所のTitanが現役稼働中)

この連載の記事
-
第813回
PC
Granite Rapid-DことXeon 6 SoCを12製品発表、HCCとXCCの2種類が存在する インテル CPUロードマップ -
第812回
PC
2倍の帯域をほぼ同等の電力で実現するTSMCのHPC向け次世代SoIC IEDM 2024レポート -
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート - この連載の一覧へ