Tesla K20Xを使ったシステムは
オークリッジ国立研究所で現役稼働中
このTesla K20/K20Xも当然すぐさまHPCに採用されることになった。連載302回で紹介したCRAYのXE6であるが、このCRAY XE6にTesla K20Xを組み合わせたCRAY XK7はオークリッジ国立研究所にTitanというシステム名で納入され、2012年11月のTOP500で見事に1位を獲得する。
このシステムはいまだに現役であり、現時点での最新リストである2014年11月の順位でも2位を確保している代物である。
Titanの構造はCieroに非常に近いが、ノード数は1万8688個で、各々のノードには16コアのOpteron 6274とTesla K20xで構成される。ノード間はCRAYのGemini Interconnectで接続されている。
理論性能が27.1125PFLOPSに対して実効性能は17.59PFLOPSで効率は64.9%とそこそこ。性能/消費電力比はシステム全体で8209KWということで、2.14GFLOPS/Wまで改善している。
まだBlue Gene/Qの3.72GFLOPS/Wにはおよばないが、前回紹介した中国の星雲システムに比べると大幅な改善ができている。
NVIDIAはこれに続き、GK110コアのままメモリー搭載量を増やすとともに動作周波数を引き上げ、さらにTesla K20/K20Xでは13/14 SMXに制限していたものをフルスペックの15 SMXにしたTesla K40を2013年11月に発表。
翌2014年11月には、GK210という若干の改良版のコアを2つ搭載したTesla K80をリリースするに至る。
GK210はGK110と比較するとややシェーダー数が少ない(Tesla K20と同じ13 SMXに制限されている)ほか、動作周波数は定格で562MHz(Boost時に最大875MHz)と下げられているが、内部のレジスター数や共有メモリーの量がGK110に比べると倍になっており、同時に多くのスレッドを実行させられるという特徴がある。
またTesla K40はベースクロック745MHzとやや高めで、それもあってコア1つで235Wなのに対し、Tesla K80は動作周波数を下げた関係で2コアでも300Wに収まっており、性能/消費電力比ではTesla K40をわずかながら上回る結果になっている。
ちなみにNVIDIAの公式資料をベースに計算すると以下のようになる。
| GPU | 単精度 | 倍精度 |
|---|---|---|
| Tesla K40 | 18.26GFLOPS/W | 6.09GFLOPS/W |
| Tesla K80 | 18.67GFLOPS/W | 6.23GFLOPS/W |
すでにカード単体レベルではBlueGene/Qの倍近い効率を実現しているわけだが、システムを構築しようとすると他にさまざまな要素が必要になるわけで、普通に作ると中国の星雲システム程度の効率になってしまうのは避けられない。オークリッジ国立研究所のTitanが2GFLOPS/Wを超える効率を誇っているのは、CRAYの高い技術力の成せる技としても良いだろう。
さて、このあたりがNVIDIAの現行製品であり、ここから先は将来製品になるわけだが、そちらに踏み込む前に、次回は少し他社製品を見てみよう。
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第878回
PC
もはや銅配線は限界? 3200Gイーサネット実現に立ちはだかる200GT/秒の壁 -
第877回
PC
「不良品ゼロ」と「水冷NG」の狭間で。ルネサスが明かした車載チップレットSoCのリアル -
第876回
PC
このままではメモリーが燃える! HBM4/5世代に向けた電力供給の限界と、Samsungが示すパッケージ協調設計の解 -
第875回
PC
1000A超のAIプロセッサーをどう動かすか? Googleが実践する垂直給電(VPD)の最前線 -
第874回
PC
AIの未来は「電力」で決まる? 巨大GPUを支える裏面給電とパッケージ革命 -
第873回
PC
「銅配線はまだ重要か? 答えはYesだ」 NVIDIA CEOジェンスンが語った2028年ロードマップとNVLink 8の衝撃 -
第872回
PC
NVIDIAのRubin UltraとKyber Rackの深層 プロトタイプから露見した設計刷新とNVLinkの物理的限界 -
第871回
PC
GTC 2026激震! 突如現れたGroq 3と消えたRubin CPX。NVIDIAの推論戦略を激変させたTSMCの逼迫とメモリー高騰 -
第870回
PC
スマホCPUの王者が挑む「脱・裏方」宣言。Arm初の自社販売チップAGI CPUは世界をどう変えるか? -
第869回
PC
半導体プロセスの新たな覇権! インテルのDNNプロセッサーはAMDやMetaを凌駕する配線密度と演算密度 -
第868回
PC
物理IPには真似できない4%の差はどこから生まれるか? RTL実装が解き放つDimensity 9500の真価 - この連載の一覧へ











