Turingのダイ写真で考えるGeForce RTXシリーズの構造　NVIDIA GPUロードマップ

2018年08月27日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII.jp

　前回のロードマップアップデートは昨年6月だったので、実に14ヵ月ぶり(回数で言えば60回ぶり)にNVIDIAのロードマップである。

Turing世代のGPUが発表
レイトレーシングの処理をハードウェアで実装

　既報の通り、NVIDIAは8月20日にTuringアーキテクチャーを搭載したGeForce RTX 2080Ti/2080/2070の各製品を発表した。

　おそらくKTUこと加藤勝明氏がGeForce RTX 2080Tiを、ジサトライッペイ氏がGeForce RTX 2080を2枚購入するのだろうとは思うが、それはさておき、長らく動きがなかったNVIDIAのコンシューマー向け製品がやっと刷新されることになったのは素直に喜ばしい。Titan XpやGeForce GTX 1080Tiから1年弱、GeForce GTX 1080は2016年5月の発表なので実に2年以上の沈黙を破ったことになる。

　さてそのTuring世代だが、最初にアナウンスされたのはGamesconの前週にカナダで行われたSIGGRAPH 2018で発表されたQuadro RTXである。発表会の中継はYoutubeに上がっているので、ここからいくつかの情報をピックアップしてまずは特徴を解説したい。

　Quadro RTXはTuringベースのハイエンドコアを実装した製品で、この数字はいずれもQuadro RTX 8000の数字をベースにしたものと思われる。

Quadro RTXの紹介。手前に小さく映り込んでいるのがCEOのJensen Huang氏。以下出典は基調講演のビデオより

　特徴なのはレイトレーシングの処理をハードウェアで実装しており、これが最大10G Rays/秒とされる。レイトレーシングは、光源から出る光がどこにどう反射して最終的に目に入るかを追跡していくという方法で、特に金属表面の映り込みなどでその効果はてきめんである。

　わかりやすいのは下の動画の31秒あたりから。ポルシェの表面に、流れる光が反映して映り込む様子がわかるかと思う。このあたりの細かい話はKTU氏の記事が詳しいので一読をお勧めする。

　もっとも光源から追っかけていくと計算量が膨大になりすぎるので、通常は視点から逆に光源までを追っかける形になるが、それでも計算は膨大になる。

　CPUでこれを実装した例がPOV-Rayで、たとえば先日Ryzen Threadripper 2990WXを利用した場合には最大で10000pps(毎秒10KPixel)の描画が可能、という結果が出ていたが、10KPixelということはVGA(640×480ピクセル)の一画面をレンダリングするのに30.72秒ほどかかる計算になる。これは到底ゲーミングなどには使えない。

　ところがTuringではこれをハードウェアで行なう(この際の光源からの経路を毎秒100億回、計算ができる)という話になっている。

球状光源での影の出方。中央の棒の影が一番わかりやすい

レイトレーシングを使わないと影がエッジがたった感じに

四角い光源だとレイトレーシングを使った場合、回転に応じて影の出方が変わる

レイトレーシングを使わないと影の形が変わらない

複数色の光源の場合。レイトレーシングだと自然な感じに

レイトレーシングを使わないと明らかにおかしな感じに

　このレイトレーシングの計算を行なうのは独自のRT Coreと呼ばれるもので、従来のCUDAの演算ユニットそのものとは別に実装される形になる。

表示が小さくて恐縮だが、RT CoreはShader Modelとは別に(Tensor Coreなどと同じように)扱われている

　それとは別に従来の整数/浮動小数点演算ユニットが用意されているが、最初の画像でも16TFlops+16TIPSとあるように、整数演算と浮動小数点演算を同時にできるようになっている。

　またAI関連ではTensor Unitが用意されており、最大で500T Tensor Opsとなっているわけだが、これはトリックがあり、Photo08の左下にあるように500T Ops/秒はInt 4(4bit整数)の場合のみ。Int 8(8bit整数)では250T Ops/秒、FP16では125T Ops/秒となっている。

　これに関しては、VoltaのTensor CoreはFP16で120T OPS/秒とされているから、実はAIに関しては(精度が同じなら)あまり性能は上がっていないことになる。

Pascalとのダイの比較。それにしても754平方mmである。さすがというべきか

　発表では上の画像のようにPascalとのダイの比較もあったが、ラフにトランジスタ密度を比較してみると以下のようになる。

Pascal:118億トランジスタ/471mm²＝250.5万トランジスタ/mm²
Turing:186億トランジスタ/754mm²＝246.7万トランジスタ/mm²

　ほとんど変わらないことを考えると、製造プロセスそのものは引き続きTSMCの12FFNが利用されているものと思われる。いくらなんでも、今のTSMCが7nmで700mm²を超えるダイを量産できるキャパシティーがあるとは思えないから、この推定は妥当だろう。

　ちなみにラインナップとしてはQuadro RTX 8000に加えて5000/6000も用意される。ただこれがまた恐ろしいのは最大48GBのラインナップが用意されることだ。

ハイエンドではついに1万ドルである。ちなみにメモリー容量が2種類あるのは、NVLink経由で2枚のカードを接続する場合だ

　プレスリリースにもあるように、Quadro RTX 8000はSamsungの16Gbit GDDR6メモリーを搭載している。つまりチップあたり2GBだから、48GBにするためにはGDDR6チップを24個搭載する形になる。

　おそらく基板の表裏にそれぞれGPUを囲むように12個づつ配しているものと思われる(それぞれが16bit接続で、バス幅は384bitと推定される)が、なかなか凶暴な配置ではある。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ

Turingのダイ写真で考えるGeForce RTXシリーズの構造 NVIDIA GPUロードマップ

Turing世代のGPUが発表 レイトレーシングの処理をハードウェアで実装

この連載の記事

この記事の編集者は以下の記事をオススメしています

PC ロードマップでわかる！当世プロセッサー事情（目次）

ビデオカード RTX 2080 Tiは買える？「GeForce RTX 20」シリーズの予約受付が開始

YouTube 自作PCトーク『ジサトラKTU』生放送 ～Whiskey Lake＆Amber Lake搭載機が目白押し！IFA 2018注目PCを振り返る～

PCパーツ 9/19は21時30分～「GeForce ON-AIR」×ジサトラKTUでGeForce RTX 20シリーズ発売記念放送！

PCパーツ Turingコアの構造も謎の指標「RTX-OPS」の計算方法も明らかに！徐々に見えてきたGeForce RTX 20シリーズの全貌

自作PC Turing無双！TITAN Vをも超える「GeForce RTX 2080 Ti/2080 Founders Edition」速攻レビュー

ビデオカード 約70万円のウルトラハイエンドVGA「Quadro RTX 6000」が登場

ビデオカード 1スロット仕様のプロ向けVGA「Quadro RTX 4000」が入荷

ビデオカード 81万8000円のレイトレ対応カード「Quadro RTX 8000」がデビュー

注目ニュース

ピックアップ

アスキーストア's 人気ランキング ベスト5

Turingのダイ写真で考えるGeForce RTXシリーズの構造　NVIDIA GPUロードマップ

Turing世代のGPUが発表
レイトレーシングの処理をハードウェアで実装

PC
ロードマップでわかる！当世プロセッサー事情（目次）

ビデオカード
RTX 2080 Tiは買える？「GeForce RTX 20」シリーズの予約受付が開始

YouTube
自作PCトーク『ジサトラKTU』生放送～Whiskey Lake＆Amber Lake搭載機が目白押し！IFA 2018注目PCを振り返る～

PCパーツ
9/19は21時30分～「GeForce ON-AIR」×ジサトラKTUでGeForce RTX 20シリーズ発売記念放送！

PCパーツ
Turingコアの構造も謎の指標「RTX-OPS」の計算方法も明らかに！徐々に見えてきたGeForce RTX 20シリーズの全貌

自作PC
Turing無双！TITAN Vをも超える「GeForce RTX 2080 Ti/2080 Founders Edition」速攻レビュー

ビデオカード
約70万円のウルトラハイエンドVGA「Quadro RTX 6000」が登場

ビデオカード
1スロット仕様のプロ向けVGA「Quadro RTX 4000」が入荷

ビデオカード
81万8000円のレイトレ対応カード「Quadro RTX 8000」がデビュー

アスキーストア's 人気ランキングベスト5