前回のロードマップアップデートは昨年6月だったので、実に14ヵ月ぶり(回数で言えば60回ぶり)にNVIDIAのロードマップである。
Turing世代のGPUが発表
レイトレーシングの処理をハードウェアで実装
既報の通り、NVIDIAは8月20日にTuringアーキテクチャーを搭載したGeForce RTX 2080Ti/2080/2070の各製品を発表した。
おそらくKTUこと加藤勝明氏がGeForce RTX 2080Tiを、ジサトライッペイ氏がGeForce RTX 2080を2枚購入するのだろうとは思うが、それはさておき、長らく動きがなかったNVIDIAのコンシューマー向け製品がやっと刷新されることになったのは素直に喜ばしい。Titan XpやGeForce GTX 1080Tiから1年弱、GeForce GTX 1080は2016年5月の発表なので実に2年以上の沈黙を破ったことになる。
さてそのTuring世代だが、最初にアナウンスされたのはGamesconの前週にカナダで行われたSIGGRAPH 2018で発表されたQuadro RTXである。発表会の中継はYoutubeに上がっているので、ここからいくつかの情報をピックアップしてまずは特徴を解説したい。
Quadro RTXはTuringベースのハイエンドコアを実装した製品で、この数字はいずれもQuadro RTX 8000の数字をベースにしたものと思われる。
特徴なのはレイトレーシングの処理をハードウェアで実装しており、これが最大10G Rays/秒とされる。レイトレーシングは、光源から出る光がどこにどう反射して最終的に目に入るかを追跡していくという方法で、特に金属表面の映り込みなどでその効果はてきめんである。
わかりやすいのは下の動画の31秒あたりから。ポルシェの表面に、流れる光が反映して映り込む様子がわかるかと思う。このあたりの細かい話はKTU氏の記事が詳しいので一読をお勧めする。
もっとも光源から追っかけていくと計算量が膨大になりすぎるので、通常は視点から逆に光源までを追っかける形になるが、それでも計算は膨大になる。
CPUでこれを実装した例がPOV-Rayで、たとえば先日Ryzen Threadripper 2990WXを利用した場合には最大で10000pps(毎秒10KPixel)の描画が可能、という結果が出ていたが、10KPixelということはVGA(640×480ピクセル)の一画面をレンダリングするのに30.72秒ほどかかる計算になる。これは到底ゲーミングなどには使えない。
ところがTuringではこれをハードウェアで行なう(この際の光源からの経路を毎秒100億回、計算ができる)という話になっている。
このレイトレーシングの計算を行なうのは独自のRT Coreと呼ばれるもので、従来のCUDAの演算ユニットそのものとは別に実装される形になる。
それとは別に従来の整数/浮動小数点演算ユニットが用意されているが、最初の画像でも16TFlops+16TIPSとあるように、整数演算と浮動小数点演算を同時にできるようになっている。
またAI関連ではTensor Unitが用意されており、最大で500T Tensor Opsとなっているわけだが、これはトリックがあり、Photo08の左下にあるように500T Ops/秒はInt 4(4bit整数)の場合のみ。Int 8(8bit整数)では250T Ops/秒、FP16では125T Ops/秒となっている。
これに関しては、VoltaのTensor CoreはFP16で120T OPS/秒とされているから、実はAIに関しては(精度が同じなら)あまり性能は上がっていないことになる。
発表では上の画像のようにPascalとのダイの比較もあったが、ラフにトランジスタ密度を比較してみると以下のようになる。
Pascal:118億トランジスタ/471mm2=250.5万トランジスタ/mm2
Turing:186億トランジスタ/754mm2=246.7万トランジスタ/mm2
ほとんど変わらないことを考えると、製造プロセスそのものは引き続きTSMCの12FFNが利用されているものと思われる。いくらなんでも、今のTSMCが7nmで700mm2を超えるダイを量産できるキャパシティーがあるとは思えないから、この推定は妥当だろう。
ちなみにラインナップとしてはQuadro RTX 8000に加えて5000/6000も用意される。ただこれがまた恐ろしいのは最大48GBのラインナップが用意されることだ。
プレスリリースにもあるように、Quadro RTX 8000はSamsungの16Gbit GDDR6メモリーを搭載している。つまりチップあたり2GBだから、48GBにするためにはGDDR6チップを24個搭載する形になる。
おそらく基板の表裏にそれぞれGPUを囲むように12個づつ配しているものと思われる(それぞれが16bit接続で、バス幅は384bitと推定される)が、なかなか凶暴な配置ではある。

この連載の記事
-
第813回
PC
Granite Rapid-DことXeon 6 SoCを12製品発表、HCCとXCCの2種類が存在する インテル CPUロードマップ -
第812回
PC
2倍の帯域をほぼ同等の電力で実現するTSMCのHPC向け次世代SoIC IEDM 2024レポート -
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート - この連載の一覧へ