約37万円！　Volta世代初のVGA「TITAN V」の怪物級性能を拝む

2018年01月11日 10時00分更新

文● 加藤勝明　編集●北村／ASCII編集部

　2017年は例年になく自作PC界隈のニュースが豊作だったが、ラストを飾ったのはNVIDIAだった。HBM2メモリーを採用する次世代GPUアーキテクチャーとして知られていた「Volta」を採用した“絵の出せる”GPU、「TITAN V」が発売されたからだ。

“世界最高性能”をうたうTITAN V。これまで黒かシルバーだったカラーリングが金＋黒という神々しい輝きを放つデザインに変更されたが、全体のデザインや大きさは従来のFounders Edition搭載のGeForceと大差ない

　NVIDIAは2017年5月の時点でVoltaアーキテクチャーを搭載した製品「Tesla V100」をリリースしていたが、Teslaは純粋なGPGPU向け、あるいはグラフィックを仮想化して提供するタイプの製品であるため、ディスプレー出力を搭載しない。だが今回TITAN Vはディスプレー出力を備えた普通のビデオカードなのだ。

　2018年1月5日時点において、TITAN Vは米国NVIDIA直販サイトでのみ販売され、価格はなんと2999ドル。TITAN Xpが1200ドルだったことを考えると破格の価格設定だ。日本での販売は決定済みだが、具体的な販売ルートや価格についてはまだ公開されていない。

TITAN Vは原稿執筆時点で米国NVIDIA直販サイトでのみ販売されている。国内における発売時期および価格は未定だが、TITAN X発売時と同様に販売はAmazon、Teslaの取り扱い実績のある菱洋エレクトロがサポートという形になる可能性が一番高い

　NVIDIAによるとTITAN Vは「世界最高性能」のGPUだという。果たしてこの言葉はどういう意味なのか？　ワットパフォーマンスでライバルを見事に退けたPascalをVoltaは打ち倒せるのか？　興味はつきない。

　そこで今回、筆者は米国直販サイトから個人輸入という形でTITAN Vを入手した（諸経費込みで約37万円。この投資によってもたらされるパワーどの程度のなのか？　さまざまなベンチマークを通じてチェックしていきたい。

こちらはTITAN Vのパッケージ。カード本体に合わせ白＋金のパッケージだ

内部の構造は同じ。もうちょっと特別感が欲しかったところ

メモリースタック1つ分の差

　TITANシリーズは、代々GPGPU用カードである「Tesla」シリーズをベースにしているため、スペックも非常にTeslaに近い。そこでTesla V100（PCI-Express版）とTITAN V、そして既存の製品のスペックを比較してみる。

各ビデオカードの比較表
	Tesla V100 PCIe	TITAN V	TITAN Xp	GeForce GTX 1080Ti
アーキテクチャー	Volta	Volta	Pascal	Pascal
製造プロセス	12nm	12nm	16nm FinFET	16nm FinFET
CUDAコア数	5120基	5120基	3840基	3584基
FP64ユニット数	2560基	2560基	120基	112基
ベースクロック	?	1200MHz	1481MHz	1480MHz
ブーストクロック	1370MHz	1455MHz	1582MHz	1582MHz
テクスチャーユニット数	?	320基	240基	224基
ROP数	?	96基	96基	88基
メモリークロック（相当）	1.75GHz	1.7GHz	11.4GHz	11GHz
メモリータイプ	HBM2	HBM2	GDDR5X	GDDR5X
メモリーバス幅	4096bit	3072bit	384bit	352bit
メモリー搭載量	16GB	12GB	12GB	11GB
メモリー帯域	900GB/秒	653GB/秒	547.7GB/秒	484GB/秒
TDP	?	250W	250W	250W
外部電源	EPS12V	8+6ピン	8+6ピン	8+6ピン
直販価格	?	2999ドル	1200ドル	699ドル

「GPU-Z」で情報を拾ってみたが、まだ情報の欠落している部分が見られる

　まず最も目を引くのがCUDAコア数5120基という強烈なスペック。TITAN Vの前身でもあるTesla V100とまったく同じスペックなのだ。だがTesla V100ではHBM2メモリーが4スタックで16GBなのに対し、TITAN Vは3スタックで12GBまで、帯域も1スタック分少ない3072Bitとなっている。

　HBM2メモリーもクロックの低さをバスの太さで稼ぐため、1スタック差はメモリー帯域に大きな影響を与える。交渉メモリー帯域はTITAN Vが653GB/秒に対し、1世代前のTITAN Xpは547.7GB/秒と、思ったほど差は大きくない。HBM2だからといって過度な期待は禁物のようだ。

NVIDIAの資料を基にTITAN Vのブロック図を筆者が想像したもの。64基のCUDAコアを内包するSMが80基並び5120基のCUDAコア群を構成。Tesla V100では4基あるHBM2メモリーのうち1基が無効化されている

　だが、Voltaを語る上でHBM2メモリーよりももっと重要なことがある。それはSMの構造の大きな変革だ。Volta内部には80基のStreaming Multiprocessor（SM）が格納されており、各SM内には単精度浮動小数点の積和演算を行なうFP32ユニット、つまりCUDAコアが64基格納されている（Pascalは128基）。

　このFP32ユニットとは別に、SM内には倍精度浮動小数点演算を実行するユニット（FP64）、さらにNVIDIAが推す深層学習分野で高い効果が見込めるテンソル演算を高速実行するTensorコアが8基組み込まれている。

　Voltaから搭載されたTensorコアはさておき、FP64ユニットの数の多さが、TITAN Vが現行GeForce、そしてTITAN X/Xpと一線を画している部分といえる。

　ゲームの処理ではFP32や16が多く使われるため、PascalでもFP32を多量に削る方向で進化してきた。ちなみに現行GeForceのFP64ユニット数はCUDAコアの32分の1にとどまっている。

GV100ベースのSMは、1基あたり64基のCUDAユニットに、その半数のFP64ユニットなどが詰まっている。SMあたり8基（図は少々誤解を受ける描かれ方がされているが）内蔵されているTensorコアは、GV100で初めて追加されたものだ

GP104、つまりGTX 1080のSMの構造。ここに描かれているCoreとはFP32、つまり普通のCUDAコアだ。Pascal世代ではL1キャッシュと共有メモリーが分離しているが、Volta世代ではこれら2つが合体している

GPU内部処理で必要なデータは、低遅延な共有メモリー、あるいはL1キャッシュ（なければL2キャッシュへ）に求めるが、共有メモリーとL1を合体させることで共有メモリーはサイズアップ、L1キャッシュは遅延の短縮と、双方Win-WinにするというのがVoltaの設計的な特徴のひとつ

　これらの構造をみれば、TITAN Vは本来のTITANの立ち位置、即ち“ミニTesla”寄りの製品であり、GeForce系のようなゲーミングにフォーカスを当てたものではないことがハッキリしてくる。

　FP64ユニットもTensorコアも、ゲーミングにとっては贅肉そのもの（ただTensorコアはFP32の演算用にも使える程度の精度はあるので、まるっきり無用というわけでもなさそうだが……）。

　TITAN VはいまNVIDIAが推す深層学習分野で最大のパフォーマンスを発揮するような構成、だからこそNVIDIAは“世界最高性能（何の性能とは言ってない）のGPU”とうたっているのだ。TITAN Vは、今のNVIDIAをビデオカードという形に表したもなのである。

　となると、TITAN Vの姿からは、そのうち登場するであろうVoltaベースのGeForceのパフォーマンスを推し量ることは難しい。CUDAコアを5120基も抱えているし、メモリー帯域も太いので相応の働きはしてくれるが、FP64やTensorコアといった“ゲーミング贅肉”も相当量抱えているためベースクロックもかなり抑えられている。

　VoltaベースのGeForceは、FP64やTensorコアを削り、その分高クロック＆高ワットパフォーマンスを狙った設計になるという予想が導き出される。

前へ 1 2 3 4 5 6 7 8 次へ