前回のロードマップアップデートは昨年6月だったので、実に14ヵ月ぶり(回数で言えば60回ぶり)にNVIDIAのロードマップである。
Turing世代のGPUが発表
レイトレーシングの処理をハードウェアで実装
既報の通り、NVIDIAは8月20日にTuringアーキテクチャーを搭載したGeForce RTX 2080Ti/2080/2070の各製品を発表した。
おそらくKTUこと加藤勝明氏がGeForce RTX 2080Tiを、ジサトライッペイ氏がGeForce RTX 2080を2枚購入するのだろうとは思うが、それはさておき、長らく動きがなかったNVIDIAのコンシューマー向け製品がやっと刷新されることになったのは素直に喜ばしい。Titan XpやGeForce GTX 1080Tiから1年弱、GeForce GTX 1080は2016年5月の発表なので実に2年以上の沈黙を破ったことになる。
さてそのTuring世代だが、最初にアナウンスされたのはGamesconの前週にカナダで行われたSIGGRAPH 2018で発表されたQuadro RTXである。発表会の中継はYoutubeに上がっているので、ここからいくつかの情報をピックアップしてまずは特徴を解説したい。
Quadro RTXはTuringベースのハイエンドコアを実装した製品で、この数字はいずれもQuadro RTX 8000の数字をベースにしたものと思われる。
特徴なのはレイトレーシングの処理をハードウェアで実装しており、これが最大10G Rays/秒とされる。レイトレーシングは、光源から出る光がどこにどう反射して最終的に目に入るかを追跡していくという方法で、特に金属表面の映り込みなどでその効果はてきめんである。
わかりやすいのは下の動画の31秒あたりから。ポルシェの表面に、流れる光が反映して映り込む様子がわかるかと思う。このあたりの細かい話はKTU氏の記事が詳しいので一読をお勧めする。
もっとも光源から追っかけていくと計算量が膨大になりすぎるので、通常は視点から逆に光源までを追っかける形になるが、それでも計算は膨大になる。
CPUでこれを実装した例がPOV-Rayで、たとえば先日Ryzen Threadripper 2990WXを利用した場合には最大で10000pps(毎秒10KPixel)の描画が可能、という結果が出ていたが、10KPixelということはVGA(640×480ピクセル)の一画面をレンダリングするのに30.72秒ほどかかる計算になる。これは到底ゲーミングなどには使えない。
ところがTuringではこれをハードウェアで行なう(この際の光源からの経路を毎秒100億回、計算ができる)という話になっている。
このレイトレーシングの計算を行なうのは独自のRT Coreと呼ばれるもので、従来のCUDAの演算ユニットそのものとは別に実装される形になる。
それとは別に従来の整数/浮動小数点演算ユニットが用意されているが、最初の画像でも16TFlops+16TIPSとあるように、整数演算と浮動小数点演算を同時にできるようになっている。
またAI関連ではTensor Unitが用意されており、最大で500T Tensor Opsとなっているわけだが、これはトリックがあり、Photo08の左下にあるように500T Ops/秒はInt 4(4bit整数)の場合のみ。Int 8(8bit整数)では250T Ops/秒、FP16では125T Ops/秒となっている。
これに関しては、VoltaのTensor CoreはFP16で120T OPS/秒とされているから、実はAIに関しては(精度が同じなら)あまり性能は上がっていないことになる。
発表では上の画像のようにPascalとのダイの比較もあったが、ラフにトランジスタ密度を比較してみると以下のようになる。
Pascal:118億トランジスタ/471mm2=250.5万トランジスタ/mm2
Turing:186億トランジスタ/754mm2=246.7万トランジスタ/mm2
ほとんど変わらないことを考えると、製造プロセスそのものは引き続きTSMCの12FFNが利用されているものと思われる。いくらなんでも、今のTSMCが7nmで700mm2を超えるダイを量産できるキャパシティーがあるとは思えないから、この推定は妥当だろう。
ちなみにラインナップとしてはQuadro RTX 8000に加えて5000/6000も用意される。ただこれがまた恐ろしいのは最大48GBのラインナップが用意されることだ。
プレスリリースにもあるように、Quadro RTX 8000はSamsungの16Gbit GDDR6メモリーを搭載している。つまりチップあたり2GBだから、48GBにするためにはGDDR6チップを24個搭載する形になる。
おそらく基板の表裏にそれぞれGPUを囲むように12個づつ配しているものと思われる(それぞれが16bit接続で、バス幅は384bitと推定される)が、なかなか凶暴な配置ではある。

この連載の記事
-
第827回
PC
オーディオとモデムを普及させるのに一役買ったAMRとACR 消え去ったI/F史 -
第826回
PC
PCIeリリース直前に登場しわずか1年の短命に終わったCSA 消え去ったI/F史 -
第825回
PC
バッファがあふれると性能が低下する爆弾を抱えるもライセンスが無料で広く普及したAGP 消え去ったI/F史 -
第824回
PC
AT互換機が普及するきっかけとなったPCIは、MCAの失敗から生まれた 消え去ったI/F史 -
第823回
PC
Intel 18AはIntel 3と比較して性能/消費電力比が15%向上 インテル CPUロードマップ -
第822回
PC
爆発的に普及したことが逆に寿命を縮める結果になったVL-Bus 消え去ったI/F史 -
第821回
PC
IBMのMCAバスに対抗してAT互換機メーカー9社が共同で開発したEISA 消え去ったI/F史 -
第820回
PC
LEDが半導体の救世主に? チップレット同士の接続を電気信号から光信号へ ISSCC 2025詳報 -
第819回
PC
次期Core UltraシリーズのPanther Lakeは今年後半に量産開始 インテル CPUロードマップ -
第818回
PC
DDRを併用し低価格・低消費電力を実現したAIプロセッサー「SN40L」 ISSCC 2025詳報 -
第817回
PC
実現困難と思われていたUCIe互換のチップレット間インターコネクトをTSMCとAMDが共同で発表 ISSCC 2025詳報 - この連載の一覧へ