GTCで判明したGP100のアーキテクチャー　NVIDIA GPUアップデート

2016年04月11日 11時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII.jp

　予想通り、GTC 2016でNVIDIAのGP100コアが発表された。今回はこのGP100の内部アーキテクチャーを主に解説しよう。

2014年～2017年のNVIDIA GPUロードマップ

Pascal世代の想定性能は
単精度で12TFLOPS、倍精度で4TFLOPSあたり

　まず製品全般としてのロードマップであるが、前回のロードマップアップデートからほとんど変わらない。唯一違いがあるのは、どうも製品名は4桁にはならない、つまりGeForce GTX 1080にはならないらしい、ということだけである。

　では、例えばGeForce GTX R80などになるのかS80になるのか、はたまたZ80なのか、といった具体的な話はまだ伝わって来ていない。とりあえず数字4桁の製品名はあまり好ましくはないと考えているのだそうで、数字は3桁に減らさせることになると思われる。

　ちなみにGeForceグレード製品のスペックそのものは相変わらず不明のままで、HBM2/GDDR5X/GDDR5の使い分けかたも、まだ明らかになっていない。このあたりは、もう少し後で論じたいと思う。

　さて、話をGP100に戻そう。昨年6月の話になるのだが、バルセロナスーパーコンピューティングセンターでPACT Cource:Introduction to CUDA Programmingというトレーニングコースが開催された(今年も5月末～6月に開催される)。

　ここで“Innovations and futures of GP memory”というセッションが、NVIDIAのFellowであるManual Ujaldon氏を講師として開催されたのだが、このセッション資料がなかなか興味深いものだった。

　このセッションは、2016年のPascalで3D積層メモリーを採用するという話を前提に、具体的にどんな形で利用可能になるかを論じたものである。

Pascalでは3D積層メモリーを採用する。この情報そのものは既知

2015年の段階の試作品。今回のGTCで展示されたものと比べると、穴の位置や電源回路などに微妙な違いが見られる

　このセッションがおもしろいのは、この時には3D積層メモリーとしてHBMではなくHMCを主に取り上げていたこと、それとPascal世代の性能(単精度で12TFLOPS、倍精度で4TFLOPS)を示していたことだ。

DDR3L-1600とDDR4-3200、それとHMC 1.0を比較するというおもしろい議論。主記憶としてのHMCという位置付けでのメリット/デメリットの議論である

こちらはオンボードメモリー(つまりVRAM)としての特徴を比較したもの

　ただスライド全部を見ても、PascalはHMCを使うとはどこにも書いてなく、単にHMC(ないしこれ相当の3D積層メモリー)を使うと、こんな具合に性能が上がるよ、ということでしかない。

主眼は、3D積層メモリーを利用した場合、演算性能/メモリー帯域がどういう関係になるかを示したもの。KeplerやXeon Phiと比べて、Pascal＋3D積層メモリーは高いバランスを取っていることが示されている

　そもそもこのセッションは、大学など研究機関の研究者に向けて、CUDAを使うことで高い演算性能を利用できるので使ってほしいという無償のものであり、多分にマーケティング要素が含まれているとは言っても、あからさまな嘘はつけない。

　したがって、少なくとも昨年6月の時点におけるPascal世代の想定性能は、単精度で12TFLOPS、倍精度で4TFLOPSあたりを目指していたと思われる。メモリー帯域はHMC 1.0×4と同等の帯域を予定していたというあたりだろう。

前へ 1 2 3 次へ