2017年は例年になく自作PC界隈のニュースが豊作だったが、ラストを飾ったのはNVIDIAだった。HBM2メモリーを採用する次世代GPUアーキテクチャーとして知られていた「Volta」を採用した“絵の出せる”GPU、「TITAN V」が発売されたからだ。
NVIDIAは2017年5月の時点でVoltaアーキテクチャーを搭載した製品「Tesla V100」をリリースしていたが、Teslaは純粋なGPGPU向け、あるいはグラフィックを仮想化して提供するタイプの製品であるため、ディスプレー出力を搭載しない。だが今回TITAN Vはディスプレー出力を備えた普通のビデオカードなのだ。
2018年1月5日時点において、TITAN Vは米国NVIDIA直販サイトでのみ販売され、価格はなんと2999ドル。TITAN Xpが1200ドルだったことを考えると破格の価格設定だ。日本での販売は決定済みだが、具体的な販売ルートや価格についてはまだ公開されていない。
NVIDIAによるとTITAN Vは「世界最高性能」のGPUだという。果たしてこの言葉はどういう意味なのか? ワットパフォーマンスでライバルを見事に退けたPascalをVoltaは打ち倒せるのか? 興味はつきない。
そこで今回、筆者は米国直販サイトから個人輸入という形でTITAN Vを入手した(諸経費込みで約37万円。この投資によってもたらされるパワーどの程度のなのか? さまざまなベンチマークを通じてチェックしていきたい。
メモリースタック1つ分の差
TITANシリーズは、代々GPGPU用カードである「Tesla」シリーズをベースにしているため、スペックも非常にTeslaに近い。そこでTesla V100(PCI-Express版)とTITAN V、そして既存の製品のスペックを比較してみる。
各ビデオカードの比較表 | ||||||
---|---|---|---|---|---|---|
Tesla V100 PCIe |
TITAN V | TITAN Xp | GeForce GTX 1080Ti |
|||
アーキテクチャー | Volta | Volta | Pascal | Pascal | ||
製造プロセス | 12nm | 12nm | 16nm FinFET | 16nm FinFET | ||
CUDAコア数 | 5120基 | 5120基 | 3840基 | 3584基 | ||
FP64ユニット数 | 2560基 | 2560基 | 120基 | 112基 | ||
ベースクロック | ? | 1200MHz | 1481MHz | 1480MHz | ||
ブーストクロック | 1370MHz | 1455MHz | 1582MHz | 1582MHz | ||
テクスチャーユニット数 | ? | 320基 | 240基 | 224基 | ||
ROP数 | ? | 96基 | 96基 | 88基 | ||
メモリークロック(相当) | 1.75GHz | 1.7GHz | 11.4GHz | 11GHz | ||
メモリータイプ | HBM2 | HBM2 | GDDR5X | GDDR5X | ||
メモリーバス幅 | 4096bit | 3072bit | 384bit | 352bit | ||
メモリー搭載量 | 16GB | 12GB | 12GB | 11GB | ||
メモリー帯域 | 900GB/秒 | 653GB/秒 | 547.7GB/秒 | 484GB/秒 | ||
TDP | ? | 250W | 250W | 250W | ||
外部電源 | EPS12V | 8+6ピン | 8+6ピン | 8+6ピン | ||
直販価格 | ? | 2999ドル | 1200ドル | 699ドル |
まず最も目を引くのがCUDAコア数5120基という強烈なスペック。TITAN Vの前身でもあるTesla V100とまったく同じスペックなのだ。だがTesla V100ではHBM2メモリーが4スタックで16GBなのに対し、TITAN Vは3スタックで12GBまで、帯域も1スタック分少ない3072Bitとなっている。
HBM2メモリーもクロックの低さをバスの太さで稼ぐため、1スタック差はメモリー帯域に大きな影響を与える。交渉メモリー帯域はTITAN Vが653GB/秒に対し、1世代前のTITAN Xpは547.7GB/秒と、思ったほど差は大きくない。HBM2だからといって過度な期待は禁物のようだ。
だが、Voltaを語る上でHBM2メモリーよりももっと重要なことがある。それはSMの構造の大きな変革だ。Volta内部には80基のStreaming Multiprocessor(SM)が格納されており、各SM内には単精度浮動小数点の積和演算を行なうFP32ユニット、つまりCUDAコアが64基格納されている(Pascalは128基)。
このFP32ユニットとは別に、SM内には倍精度浮動小数点演算を実行するユニット(FP64)、さらにNVIDIAが推す深層学習分野で高い効果が見込めるテンソル演算を高速実行するTensorコアが8基組み込まれている。
Voltaから搭載されたTensorコアはさておき、FP64ユニットの数の多さが、TITAN Vが現行GeForce、そしてTITAN X/Xpと一線を画している部分といえる。
ゲームの処理ではFP32や16が多く使われるため、PascalでもFP32を多量に削る方向で進化してきた。ちなみに現行GeForceのFP64ユニット数はCUDAコアの32分の1にとどまっている。
これらの構造をみれば、TITAN Vは本来のTITANの立ち位置、即ち“ミニTesla”寄りの製品であり、GeForce系のようなゲーミングにフォーカスを当てたものではないことがハッキリしてくる。
FP64ユニットもTensorコアも、ゲーミングにとっては贅肉そのもの(ただTensorコアはFP32の演算用にも使える程度の精度はあるので、まるっきり無用というわけでもなさそうだが……)。
TITAN VはいまNVIDIAが推す深層学習分野で最大のパフォーマンスを発揮するような構成、だからこそNVIDIAは“世界最高性能(何の性能とは言ってない)のGPU”とうたっているのだ。TITAN Vは、今のNVIDIAをビデオカードという形に表したもなのである。
となると、TITAN Vの姿からは、そのうち登場するであろうVoltaベースのGeForceのパフォーマンスを推し量ることは難しい。CUDAコアを5120基も抱えているし、メモリー帯域も太いので相応の働きはしてくれるが、FP64やTensorコアといった“ゲーミング贅肉”も相当量抱えているためベースクロックもかなり抑えられている。
VoltaベースのGeForceは、FP64やTensorコアを削り、その分高クロック&高ワットパフォーマンスを狙った設計になるという予想が導き出される。
この連載の記事
-
第458回
自作PC
Arc B580のRTX 4060/RX 7600超えは概ね本当、11本のゲームで検証してわかった予想以上の出来 -
第457回
自作PC
インテル新GPU、Arc B580の実力は?AI&動画エンコードは前世代より超強力に -
第456回
デジタル
「Ryzen 7 9800X3D」は高画質設定でも最強ゲーミングCPUであることに間違いはなかった -
第455回
デジタル
「Ryzen 7 9800X3D」が最強ゲーミングCPUであることを証明する -
第454回
デジタル
性能が最大50%引き上げられたSamsung製SSD「990 EVO Plus」は良コスパSSDの新星だ -
第453回
デジタル
性能も上がったが消費電力も増えた「Ryzen 7 9800X3D」最速レビュー、AI推論の処理速度は7800X3Dの約2倍! -
第452回
自作PC
Core Ultra 200Sシリーズのゲーム性能は?Core Ultra 5/7/9を10タイトルで徹底検証 -
第451回
自作PC
Core Ultra 9 285K/Core Ultra 7 265K/Core Ultra 5 245K速報レビュー!第14世代&Ryzen 9000との比較で実力を見る -
第450回
デジタル
AGESA 1.2.0.2でRyzen 9 9950Xのパフォーマンスは改善するか? -
第449回
デジタル
Ryzen 9000シリーズの性能にWindows 11の分岐予測改善コードはどう影響するか? -
第448回
デジタル
TDP 105W動作にするとRyzen 7 9700X/Ryzen 5 9600Xはどの程度化ける? レッドゾーン寸前を攻める絶妙な設定だが、ゲームでの効果は期待薄 - この連載の一覧へ