Volta版GeForceはTeslaの構造変更で実現か？　NVIDIA GPUロードマップ

2017年06月26日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII.jp

2016年～2017年のNVIDIA GPUロードマップ

Volta世代のGV100コア製品を発表

　Volta世代最初の製品がTesla向け、というのは予定通りであり、今年5月のGTCでTesla V100としてGV100コア製品が発表された。

　とりあえずTesla V100は連載373回で解説したように、Power9と組み合わせる形でオークリッジ国立研究所のSummitとローレンス・リバモア国立研究所のSierraに納入が予定されている。まずはこれ向けの量産が最優先となる。

　Summitの場合では、トータル4600ほどのノード1つあたり2つのPower 9と6つのVoltaが搭載されるので、まずは2万8000枚弱のVoltaカードをNVIDIAは量産せねばならない。Sierra向けも合わせると4万枚弱といったあたりで、これが一段落するまで少なくともGV100コアに関しては派生型などを考えるのは難しいだろう。

Tesla V100の12nm FFNプロセスは
16FF+に6トラックのスタンダードセルを適用

　このGV100でもう1つ問題になるのはプロセスである。GTCの基調講演では“TSMC 12nm FFN”とあったが、実はこれはNVIDIA専用のカスタムプロセスである。まずこの話を改めてしておこう。

NVLink版のTesla V100。新しいVoltaアーキテクチャーのGPUで、ディープラーニング用のTensor Coreを搭載する

　TSMCは16nm世代で大きく3種類のプロセスを用意した。16FF、16FF+、16FFCである。最初のものが16FFでFinFETの第1世代である。ただこれは量産前の試行とでもいうべきもので、量産製品のほとんどは16FF+という16FFの改良版を利用している。NVIDIAのPascal世代が全部これである。

　この16FF+のコストを下げたコンパクト版が16FFCとなる。なぜか最新のTSMCの16nmのページでは説明が省かれているのだが、Googleのキャッシュに残された以前の説明によれば“TSMC also introduced a more cost-effective 16nm FinFET Compact Technology (16FFC). This process maximizes die cost scaling by simultaneously incorporating optical shrink and process simplification”と説明がなされている。

　プロセス構成をやや簡単化するとともに、Optical Shrinkをかけて若干エリアサイズを小型化した、低コスト版の16nm FinFETプロセスである。

　さてこれに続き、今年3月にTSMCがアナウンスしたのが12FFCである。これは、プロセスの物理的なパラメーターそのものは16FFCそのままである。もともと16FF+→16FFCの際にOptical Shrinkを実施しているが、これはたかだか数%という比率でしかないらしい。

　つまりトランジスタのサイズそのものは、ほとんど16FF+と違いがない。例えば縦横1%縮小しても面積比では2%の縮小、寸法を5%縮められれば面積で1割削減になるため効果的ではあるのだが、一方でFinFETの世代では寸法をいじると急激に物理特性が変わってしまうので、いじるといっても影響のない範囲にとどめる場合、そんなに大きく変更はできないことになる。

　しかも16FF+→16FFNで一度Optical Shrinkを行なっているので、さらなる縮小はかなり厳しい。実際には少しだけ余分にShrinkの度合いが増えているらしいが、ほとんど違わないそうだ。

　ところが12FFCでは、16FFCと比較して9～12%の面積削減と15%の消費電力削減が可能、というのがTSMCの説明である。これは、スタンダードセルを6トラックにしたことで実現した。

　スタンダードセルのサイズを縮小して小型化と省電力化、というのはかつてAMDがCarrizoでやった方法である。Carrizoの場合は12トラックのセルを9/7.5トラックで再設計しなおすことで面積を30%削り、消費電力を下げることにも成功したが、その代わり性能が上がらなくなっている。

　この「性能が上がらない」は12FFCにも言えることで、したがって12FFCはメインストリーム向けのモバイルSoC向け、という位置づけになっていた。

　ということで話を12FFNに戻す。こちらは端的に言えば16FF+に6トラックのスタンダードセルを適用した構造になっている。一応こちらにもOptical Shrinkをかけてはいるが、性能を犠牲にしないために、あまり大きく寸法をいじれなかったようで、結果トランジスタの寸法は16FFCよりも大きいらしい。つまり、サイズ縮小の効果は主にスタンダードセルに6トラックのものを利用したことに起因する。

　その効果はあったのか？といわれれば、おそらくあったのだろう、という答えになる。Tesla V100のホワイトペーパーによれば、以下のようになっている。