チップセット黒歴史編を始めたばかりであるが、NVIDIAからGeForce GTX TITANがリリースされたので、今回は黒歴史をお休みして、GeForce GTX TITANの解説をしよう。
前回のロードマップで、「筆者は、GK110を投入しない方に一票を投じたい」と書いたのだが、見事に外れてしまった。GeForce GTX TITANはGK110コアをそのまま搭載した製品で、トランジスター数は71億個にもおよぶものであった。
NVIDIA提供の基板写真を見ると、GK110のダイの寸法は23.5mm×24.5mmで575.75mm2になる計算だ。もっともこれは多少誤差を含んだ数字なので、おそらく540~550mm2くらいになるはずだが、それでもかなり大きなサイズである。
300mmウェハー1枚で、どんなに効率良く取っても100個取れるかどうかという規模である。28nmプロセスの場合、ウェハー1枚の生産コストが100万円の大台に達しているらしいので、歩留まりが100%としてもダイの原価が1個1万円という計算になる。実際はこんなに歩留まりが良いことはありえないので、原価が2万とは言わないものの、1.5万円くらいには達していそうだ。
消費電力を重視するTeslaと
絶対性能を重視するTITAN
GeForce GTX TITANのダイそのものは、NVIDIAのGPGPU向け製品であるTesla K20/K20Xと同じであるが、スペックや機能には、以下のような違いがある。
この違いについてもう少し細かく説明したい。
まずコア数であるが、元々GK110コアは15のSMX(Streaming Multiprocessor eXtreme)と、2880のCUDAコアを搭載している。ただし、これを全て有効にする使い方だと、歩留まりが下がってしまう。そこでK20Xでは14SMX、K20では13SMXのみを有効にしている。あるSMXに欠陥があっても、そこを無効化すれば解決するため、歩留まりを下げずに済む。
そこでTITANは、K20Xと同様に14SMXでの構成となった。これは、GK110の歩留まりが予想以上に良いので、SMXを1つ無効化すれば良いというよりも、そもそもTITANの出荷量がそれほど多くないため、14SMX構成でもまかなえると判断したのだろう。1つのSMXにはGeForce GTX 680同様、192のCUDAコアが含まれるので、それぞれCUDAコア数は2496、2688になる計算で、TITANも2688になる。
CUDAコア数は減ったものの、コアの動作周波数はやや引き上げられている。K20Xが732MHz、K20が706MHz駆動なのに対し、TITANでは837MHz(Base Clock)になっている。Tesla系は一度計算を始めると長時間、それこそ1日以上フル稼働させる使い方をするので、発熱などを考えると動作周波数を上げにくいという事情がある。一方のTITANはグラフィック向けなので、長時間稼動させることは考えなくても良い。
またTeslaはデータセンターなどで、多数のカードが同時に稼動することを前提としているので、1枚あたりの絶対性能よりも性能/消費電力比を高めるほうが重視されており、このためには多少駆動電圧を下げ、動作周波数を落としたほうが有利である。TITANはピーク性能重視なので、むしろ電圧を上げて性能を高めたほうが好ましい。動作周波数が100MHz以上も違うのは、そのあたりが関係している。
ECCメモリーは非サポート
次はメモリー構成。K20Xは384bit幅で5.2GHz駆動、K20は320bit幅でやはり5.2GHz駆動なのに対し、TITANは384bit幅で6GHz駆動となっている。もちろんGPUコアの動作周波数にある程度マッチする帯域を確保しないと意味がないので、動作周波数そのものが違うのは当然だが、それよりも大きな違いは、K20X/K20ではECCメモリーをサポートしているが、TITANは非サポートな点だ。
ECC(Error Check and Correct)は、エラーの検出と訂正を行なう仕組みである。メモリーの場合は通常9bit幅(データ8bit+ECC用が1bit)の構成で、2bitのエラー検出と1bitのエラー訂正が可能である。サーバー向けのDIMMでもやはりECC付きのものがあるが原理は同じだ。
科学技術計算などで長時間連続稼動を想定する場合、ECCの対応は必須であり、Teslaではメモリーのみならず内部のバスもECCで保護しているが、TITANではこうした装備は不要ということで、ばっさり削られている。
この連載の記事
-
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 - この連載の一覧へ