このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第413回

Volta版GeForceはTeslaの構造変更で実現か? NVIDIA GPUロードマップ

2017年06月26日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

2016年~2017年のNVIDIA GPUロードマップ

Volta世代のGV100コア製品を発表

 Volta世代最初の製品がTesla向け、というのは予定通りであり、今年5月のGTCでTesla V100としてGV100コア製品が発表された

 とりあえずTesla V100は連載373回で解説したように、Power9と組み合わせる形でオークリッジ国立研究所のSummitとローレンス・リバモア国立研究所のSierraに納入が予定されている。まずはこれ向けの量産が最優先となる。

 Summitの場合では、トータル4600ほどのノード1つあたり2つのPower 9と6つのVoltaが搭載されるので、まずは2万8000枚弱のVoltaカードをNVIDIAは量産せねばならない。Sierra向けも合わせると4万枚弱といったあたりで、これが一段落するまで少なくともGV100コアに関しては派生型などを考えるのは難しいだろう。

Tesla V100の12nm FFNプロセスは
16FF+に6トラックのスタンダードセルを適用

 このGV100でもう1つ問題になるのはプロセスである。GTCの基調講演では“TSMC 12nm FFN”とあったが、実はこれはNVIDIA専用のカスタムプロセスである。まずこの話を改めてしておこう。

NVLink版のTesla V100。新しいVoltaアーキテクチャーのGPUで、ディープラーニング用のTensor Coreを搭載する

 TSMCは16nm世代で大きく3種類のプロセスを用意した。16FF、16FF+、16FFCである。最初のものが16FFでFinFETの第1世代である。ただこれは量産前の試行とでもいうべきもので、量産製品のほとんどは16FF+という16FFの改良版を利用している。NVIDIAのPascal世代が全部これである。

 この16FF+のコストを下げたコンパクト版が16FFCとなる。なぜか最新のTSMCの16nmのページでは説明が省かれているのだが、Googleのキャッシュに残された以前の説明によれば“TSMC also introduced a more cost-effective 16nm FinFET Compact Technology (16FFC). This process maximizes die cost scaling by simultaneously incorporating optical shrink and process simplification”と説明がなされている。

 プロセス構成をやや簡単化するとともに、Optical Shrinkをかけて若干エリアサイズを小型化した、低コスト版の16nm FinFETプロセスである。

 さてこれに続き、今年3月にTSMCがアナウンスしたのが12FFCである。これは、プロセスの物理的なパラメーターそのものは16FFCそのままである。もともと16FF+→16FFCの際にOptical Shrinkを実施しているが、これはたかだか数%という比率でしかないらしい。

 つまりトランジスタのサイズそのものは、ほとんど16FF+と違いがない。例えば縦横1%縮小しても面積比では2%の縮小、寸法を5%縮められれば面積で1割削減になるため効果的ではあるのだが、一方でFinFETの世代では寸法をいじると急激に物理特性が変わってしまうので、いじるといっても影響のない範囲にとどめる場合、そんなに大きく変更はできないことになる。

 しかも16FF+→16FFNで一度Optical Shrinkを行なっているので、さらなる縮小はかなり厳しい。実際には少しだけ余分にShrinkの度合いが増えているらしいが、ほとんど違わないそうだ。

 ところが12FFCでは、16FFCと比較して9~12%の面積削減と15%の消費電力削減が可能、というのがTSMCの説明である。これは、スタンダードセルを6トラックにしたことで実現した。

 スタンダードセルのサイズを縮小して小型化と省電力化、というのはかつてAMDがCarrizoでやった方法である。Carrizoの場合は12トラックのセルを9/7.5トラックで再設計しなおすことで面積を30%削り、消費電力を下げることにも成功したが、その代わり性能が上がらなくなっている。

 この「性能が上がらない」は12FFCにも言えることで、したがって12FFCはメインストリーム向けのモバイルSoC向け、という位置づけになっていた。

 ということで話を12FFNに戻す。こちらは端的に言えば16FF+に6トラックのスタンダードセルを適用した構造になっている。一応こちらにもOptical Shrinkをかけてはいるが、性能を犠牲にしないために、あまり大きく寸法をいじれなかったようで、結果トランジスタの寸法は16FFCよりも大きいらしい。つまり、サイズ縮小の効果は主にスタンダードセルに6トラックのものを利用したことに起因する。

 その効果はあったのか?といわれれば、おそらくあったのだろう、という答えになる。Tesla V100のホワイトペーパーによれば、以下のようになっている。

各コアのスペック
コア名 GP100 GV100
アーキテクチャー Pascal Volta
ダイサイズ(mm2) 610 815
トランジスタ数 153億 211億
SM数 60 80

 ここから以下のように算出できる。

ダイサイズの算出
コア名 GP100 GV100
SMあたりのダイサイズ 10.17mm2 10.19mm2
1億トランジスタ当たりのダイサイズ 3.986mm2 3.863mm2

 1億トランジスタあたりのダイサイズは微減、というあたりだがSMあたりのダイサイズは微増である。ただ実際にはVolta世代ではSMの中にTensor Coreと呼ばれるテンソル演算用のユニットが追加されている。

 さらに共有メモリーサイズも若干増やされており、この増分を吸収してほぼPascalと同等のエリアサイズを実現するには、12FFNの採用が必須だった、ということだと思われる。逆に言えば、12FFNを使ってもそう大きくエリアが削減できるわけではない、ということでもある。

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン