2017年は例年になく自作PC界隈のニュースが豊作だったが、ラストを飾ったのはNVIDIAだった。HBM2メモリーを採用する次世代GPUアーキテクチャーとして知られていた「Volta」を採用した“絵の出せる”GPU、「TITAN V」が発売されたからだ。
NVIDIAは2017年5月の時点でVoltaアーキテクチャーを搭載した製品「Tesla V100」をリリースしていたが、Teslaは純粋なGPGPU向け、あるいはグラフィックを仮想化して提供するタイプの製品であるため、ディスプレー出力を搭載しない。だが今回TITAN Vはディスプレー出力を備えた普通のビデオカードなのだ。
2018年1月5日時点において、TITAN Vは米国NVIDIA直販サイトでのみ販売され、価格はなんと2999ドル。TITAN Xpが1200ドルだったことを考えると破格の価格設定だ。日本での販売は決定済みだが、具体的な販売ルートや価格についてはまだ公開されていない。
NVIDIAによるとTITAN Vは「世界最高性能」のGPUだという。果たしてこの言葉はどういう意味なのか? ワットパフォーマンスでライバルを見事に退けたPascalをVoltaは打ち倒せるのか? 興味はつきない。
そこで今回、筆者は米国直販サイトから個人輸入という形でTITAN Vを入手した(諸経費込みで約37万円。この投資によってもたらされるパワーどの程度のなのか? さまざまなベンチマークを通じてチェックしていきたい。
メモリースタック1つ分の差
TITANシリーズは、代々GPGPU用カードである「Tesla」シリーズをベースにしているため、スペックも非常にTeslaに近い。そこでTesla V100(PCI-Express版)とTITAN V、そして既存の製品のスペックを比較してみる。
| 各ビデオカードの比較表 | ||||||
|---|---|---|---|---|---|---|
| Tesla V100 PCIe |
TITAN V | TITAN Xp | GeForce GTX 1080Ti |
|||
| アーキテクチャー | Volta | Volta | Pascal | Pascal | ||
| 製造プロセス | 12nm | 12nm | 16nm FinFET | 16nm FinFET | ||
| CUDAコア数 | 5120基 | 5120基 | 3840基 | 3584基 | ||
| FP64ユニット数 | 2560基 | 2560基 | 120基 | 112基 | ||
| ベースクロック | ? | 1200MHz | 1481MHz | 1480MHz | ||
| ブーストクロック | 1370MHz | 1455MHz | 1582MHz | 1582MHz | ||
| テクスチャーユニット数 | ? | 320基 | 240基 | 224基 | ||
| ROP数 | ? | 96基 | 96基 | 88基 | ||
| メモリークロック(相当) | 1.75GHz | 1.7GHz | 11.4GHz | 11GHz | ||
| メモリータイプ | HBM2 | HBM2 | GDDR5X | GDDR5X | ||
| メモリーバス幅 | 4096bit | 3072bit | 384bit | 352bit | ||
| メモリー搭載量 | 16GB | 12GB | 12GB | 11GB | ||
| メモリー帯域 | 900GB/秒 | 653GB/秒 | 547.7GB/秒 | 484GB/秒 | ||
| TDP | ? | 250W | 250W | 250W | ||
| 外部電源 | EPS12V | 8+6ピン | 8+6ピン | 8+6ピン | ||
| 直販価格 | ? | 2999ドル | 1200ドル | 699ドル | ||
まず最も目を引くのがCUDAコア数5120基という強烈なスペック。TITAN Vの前身でもあるTesla V100とまったく同じスペックなのだ。だがTesla V100ではHBM2メモリーが4スタックで16GBなのに対し、TITAN Vは3スタックで12GBまで、帯域も1スタック分少ない3072Bitとなっている。
HBM2メモリーもクロックの低さをバスの太さで稼ぐため、1スタック差はメモリー帯域に大きな影響を与える。交渉メモリー帯域はTITAN Vが653GB/秒に対し、1世代前のTITAN Xpは547.7GB/秒と、思ったほど差は大きくない。HBM2だからといって過度な期待は禁物のようだ。
だが、Voltaを語る上でHBM2メモリーよりももっと重要なことがある。それはSMの構造の大きな変革だ。Volta内部には80基のStreaming Multiprocessor(SM)が格納されており、各SM内には単精度浮動小数点の積和演算を行なうFP32ユニット、つまりCUDAコアが64基格納されている(Pascalは128基)。
このFP32ユニットとは別に、SM内には倍精度浮動小数点演算を実行するユニット(FP64)、さらにNVIDIAが推す深層学習分野で高い効果が見込めるテンソル演算を高速実行するTensorコアが8基組み込まれている。
Voltaから搭載されたTensorコアはさておき、FP64ユニットの数の多さが、TITAN Vが現行GeForce、そしてTITAN X/Xpと一線を画している部分といえる。
ゲームの処理ではFP32や16が多く使われるため、PascalでもFP32を多量に削る方向で進化してきた。ちなみに現行GeForceのFP64ユニット数はCUDAコアの32分の1にとどまっている。
これらの構造をみれば、TITAN Vは本来のTITANの立ち位置、即ち“ミニTesla”寄りの製品であり、GeForce系のようなゲーミングにフォーカスを当てたものではないことがハッキリしてくる。
FP64ユニットもTensorコアも、ゲーミングにとっては贅肉そのもの(ただTensorコアはFP32の演算用にも使える程度の精度はあるので、まるっきり無用というわけでもなさそうだが……)。
TITAN VはいまNVIDIAが推す深層学習分野で最大のパフォーマンスを発揮するような構成、だからこそNVIDIAは“世界最高性能(何の性能とは言ってない)のGPU”とうたっているのだ。TITAN Vは、今のNVIDIAをビデオカードという形に表したもなのである。
となると、TITAN Vの姿からは、そのうち登場するであろうVoltaベースのGeForceのパフォーマンスを推し量ることは難しい。CUDAコアを5120基も抱えているし、メモリー帯域も太いので相応の働きはしてくれるが、FP64やTensorコアといった“ゲーミング贅肉”も相当量抱えているためベースクロックもかなり抑えられている。
VoltaベースのGeForceは、FP64やTensorコアを削り、その分高クロック&高ワットパフォーマンスを狙った設計になるという予想が導き出される。

この連載の記事
-
第473回
デジタル
Ryzen 7 9800X3Dと9700Xはどっちが良いの?! WQHDゲーミングに最適なRadeon RX 9060 XT搭載PCの最強CPUはこれだ! -
第472回
sponsored
触ってわかった! Radeon RX 9070 XT最新ドライバーでFPSゲームが爆速&高画質に進化、ストレスフリーな快適体験へ -
第471回
デジタル
8TBの大容量に爆速性能! Samsung「9100 PRO 8TB」で圧倒的なデータ処理能力を体感 -
第470回
デジタル
HEDTの王者Ryzen Threadripper 9980X/9970X、ついにゲーミング性能も大幅進化 -
第469回
デジタル
ワットパフォーマンスの大幅改善でHEDTの王者が完全体に、Zen 5世代CPU「Ryzen Threadripper 9000」シリーズをレビュー -
第467回
デジタル
Radeon RX 9060 XT 16GB、コスパの一点突破でRTX 5060 Tiに勝つ -
第466回
デジタル
Radeon RX 9060 XTは6.5万円でVRAM 16GBのお値打ちGPUになれたか? -
第465回
デジタル
遅れてやってきたPCIe5.0 SSDの大本命、リード14GB/秒超えのSamsung「9100 PRO」を実機レビュー -
第464回
デジタル
Radeon RX 9070シリーズの仕上がりは想像以上だったことがゲームベンチでわかった -
第463回
デジタル
Ryzen 9 9950X3Dは順当進化。3D V-Cache搭載Ryzenの最強モデルだがクセありな部分はそのまま -
第462回
デジタル
RTX 5070の足を止めた「Radeon RX 9070 XT/ 9070」レビュー - この連載の一覧へ











