Nvidia、次世代GPUが「Tesla」として登場、自動運転のレースも：GTC2016レポート

2016年04月06日 23時30分更新

文● 塩田紳二　編集● ASCII.jp

　NVIDIA社は、米国サンノゼ市で「GPU Technology Conferrence 2016」（以下、GTC2016）を開催し、次世代GPUであるPascal P100などを発表した。

今回発表された「Tesla P100」。モジュール構造になっており、中央にPascalチップがある。このチップには、GPUと16ギガバイトのHBM2が載っている。写真はNVIDIA社提供のもの

　GTCは、NVIDIA社が毎年開催している技術者向けのイベントだ。2015年のGTCでは、それまでのGPU技術中心からディープラーニングに大きく傾倒するところを見せたが、今回もディープラーニング技術が大きく取り上げられており、性能を示すのにもディープラーニングの学習時間が短縮されるといった表現が用いられていた。

基調講演を行なったNVIDIA社CEOのジェンスン・ファン氏

　GTC2016初日の基調講演を行なうのは、いつもと同じくNVIDA社CEOのジェンスン・ファン氏。今回は大きく5つの発表があると最初に示し、それぞれを解説していく。発表されたのは、

NVIDA SDK
IRAY VR/IRAY VR Lite
TESLA P100
DGX-1
自動運転レースカーとレースの開催

の5つだ。

今回の基調講演では5つの発表があった

　NVIDIA SDKは、Unified SDKとも呼ばれ、GPUを使う「汎用計算」「ゲーム」「VR」「デザイン」「自動運転」の5つの分野とJETSON用の「JETPACK」（Jetson Development Pack）の計6つをカバーする。発表では「Available Now」となっているが、個々のコンポーネントごとに最新版の提供時期がある。たとえば、Pascal対応のCUDA8は今年6月から利用可能になるようだ。

最初に発表したのはNVIDIAのGPU全般をカバーするNVIDIA SDK。Pascalアーキテクチャ対応のCUDA8は今年6月にリリース開始

　次に紹介されたのは、デザイン用の高品質（Photo Realistic）グラフィックスレンダリングシステムのVR対応。IRAY VRと呼ばれ、高品質なグラフィックスをVRで利用できるようになるという。これにより設計した建築物の中に立ってデザインを確認したり、モデルをさまざまな方向から確認しながら設計するといったことが可能になるという。

　また、IRAY VRの簡易版であるIRAY VR Liteも発表。これは、VR機材としてスマートフォンを使うVRゴーグル型ケース（たとえばグーグルのカードボードなど）を利用するもの。アンドロイドアプリとして提供される。

エベレストをVRで体験できるコンテンツ「EVEREST VR」

もう1つのVRコンテンツ「MARS 2030」の紹介では、スティーブ・ウォズニアク氏がテレビ会議で参加

　NVIDIAは、VRのデモとしてEVEREST VR（エベレスト山のリアルなVRコンテンツ）やMARS 2030（火星での活動をシミュレートするVRコンテンツ）を公開した。MARS 2030は、単に景色を眺めるのではなく、車両に乗ればナビゲーションシステムが景色に重なって表示される。雰囲気としては、映画オデッセイのような感じ。このデモでは、あのスティーブ・ウォズニアクが遠隔地から参加、MARS 2030を見た感想などを語った。

高品質なVRを可能にするIRAY VRシステム。デザイン向けのIRAYシステムでVRが可能になった

IRAY VRの簡易版IRAY VR LITE。スマートフォンを使うVRゴーグルを利用するAndroidアプリとして提供される

Pascalベースの次世代GPUが「Tesla P100」として登場
Xeonサーバー250台分のディープラーニングの学習

　次の発表は、GPUチップであるTesla P100。昨年発表したPascalアーキテクチャのGPUが具体的な製品として発表された。ジェンスン氏は、これを「Deep Learning Chip」「Hyperscale Datacenter GPU」などと呼ぶ。その理由としては、半精度浮動小数点（FP16）のサポートがある。

Tesla P100のことをジェンスン氏はDeep Learning Chipと呼ぶ

　ディープラーニングでは、浮動小数点の行列演算を大量に行なうが、その精度はあまり高くなくてもよく、従来の単精度浮動小数点（FP32）の半分のビット幅となる16ビットで表現された浮動小数点データを使うことができる。

　NVIDIAのアーキテクチャではこれまで32bitのFP32演算を1サイクルでできたのだが、その演算器で2つのFP16演算を同時にできるようにした。このため、FP16の演算性能はFP32の2倍になる。改良により、Pascalアーキテクチャは現在のMaxwellアーキテクチャよりも演算性能が向上していて、FP32では、10TFlops程度になるのだが、FP16ではこの2倍の20TFlopsを達成できる。

Tesla P100の5つの「奇跡」。16nm FinFETで製造され16GBのHBM2メモリをGPUパッケージ内に搭載。NVLINKで他のP100と接続できる

Tesla P100は、KeplerやMaxwellアーキテクチャよりも性能が向上しており、計算性能、GPUのメモリ帯域幅、GPU間接続の帯域などが大きく向上した

　もう1つの理由は、大量のレジスタファイルの搭載だ。P100では、搭載するレジスタを14MB搭載している。このレジスタは、演算対象として利用されるが、ここにディープラーニングの学習時に何回も参照する「重み」のようなパラメーターを記憶させておくことで、計算時のメモリアクセスが減り、処理が高速化する。

　P100は、16nmプロセスで製造され、パッケージ内に多層に重ねたDRAMチップ（HBM2。High Band-width Memory）を4つ（合計16MB）搭載する。

　次に発表されたのは、P100を8つ、Xeonを2つ搭載した「Deep Learning Super Computer」であるDGX-1。メインCPUであるXeon側で3テラフロップス、GPU側は170テラフロップスとなり、Alexnetと呼ばれる著名なディープラーニングシステムの学習を2時間で終了させる能力を持つ。この学習をXeon側で行なうと150時間となり、Xeonを使って2時間で処理するためには、2つのXeonを搭載したシステムを250台用意する必要がある。これをもって、ジェンスン氏は、「250サーバーが1つの箱」に入ったと表現する。

Tesla P100を8つ、Xeonを２つ搭載したディープラーニングスーパーコンピュータDGX-1

DGX-1には、Tesla P100が8つ、Xeonが2つ搭載されており、3Uのラックマウント筐体に収まってる

ディープラーニングはプラットフォームへと進化
自動運転レースカーによる競技も開催へ

　最後は自動運転だ。ディープラーニング技術は、物体の認識などのコンピュータービジョンや状況判断などの自動運転技術に利用されている。NVIDIAはこれに対してこれまでJetsonやDrive PXなどの製品を投入してきた。NVIDIAは、自動運転技術がある程度成立したことを受け、世界初の自動運転レースカーを設計した。また、Drive PX2を利用する自動運転レースカーによる競技「ROBORACE」を開催するとした。

NVIDIAの自立運転レースカー

2016～2017年にDRIVE PX2を使う自動運転レースカーの競技を開催するという

　昨年のGTCでは、ディープラーニング一色だったが、今回は、その方向性が製品として登場することになった。GPUとはいえディープラーニングを想定した半精度浮動小数点演算などを導入したP100などはGraphicsという枠を大きく飛び出している。

　ジェンスン氏は、ディープラーニングを「新たな計算モデル」と呼び、今後大きく成長する分野だとし、すでに「フレームワーク」から「プラットフォーム」へと進化しているとした。PCでは、CPUにGPUが内蔵されるのが普通となり、かつてのようにGPUボードを利用することは少なくなった。そうした中、NVIDIAは、Teslaで高性能科学技術演算に進出したが、その結果がディープラーニングとして結実しつつあるようだ。

■関連サイト