ビデオメモリーを3.5GB以上使うと遅くなる
GeForce GTX 970
GM204コア本来の構成の概略図はこちらにも示されているが、もうすこし抽象化したのが下図である。
SMMは128個のCUDA Core(もう少し正確に書けば、128個のCore+32個のLoad/Store Unit+32個のSpecial Function Unit)と1次キャッシュを組み合わせた構成になっており、このSMM×4は一つのGPC(Graphics Processing Cluster)と呼ばれる。
GM204はこのGPCを8つ持つ形になっている。これに組み合わされる2次キャッシュだが、こちらも実際には8分割されている。GM204の場合はメモリーバス幅が256bitになっており、これが32bit×8、ないし16bit×16という構成でGDDR5 DRAMに接続されるため、2次キャッシュもこれにあわせた形だ。
上図はGeForce GTX 980の構成だが、GeForce GTX 970では下図のようになる。まずCUDA Coreが1664個になる。これはSMMが13個という構成になるので、4つのGPCのうち3つはSMMを3つしか持たない構成になる。
さて、SMMが13個と本来の4分の3近い数まで減ると、当然必要とされるメモリー帯域も4分の3ほどになるため、構成的には2次キャッシュを1つ無効化しても問題ない。
もともとGeForce GTX 970がシェーダーを無効化する理由は、性能的に差別化するためという理由もあるが、欠陥があってGeForce GTX 980としては利用できないコアを救う、という目的もある。
GM204の2次キャッシュは2MBなのでそう大きなものではないが、それでも2次キャッシュの部分に欠陥があると、これまでなら全量アウトになる。
ところが2次キャッシュの一部を無効化できれば、その分救えるダイが増えることになる。おそらくGeForce GTX 970で2次キャッシュの容量が1.75MBにされたのはそうした理由があってのことだろう。
ただ問題は、そうなるとメモリーバスのうち32bit分が宙に浮いてしまうことだ。これをカバーするため、GDDR5のI/F同士で、横方向の接続が可能になっている。
上図右下の、横方向の赤い線がそれだ。個人的には、いっそメモリーバスを256bitではなく、224bit幅にしてしまえばこんな手間はいらなかったと思うのだが、そこは商品構成上の問題などもあったのかもしれない。
結果として上図のような構成になっている。すると、当然ながらこの一番右端のGDDR5チップにアクセスしようとすると、右端の2次キャッシュがボトルネックになる。
これを避けるためGeForce GTX 970では、なるべく左の224bit分のメモリーを優先的に使うようになっており、トータルでのメモリー使用量が3.5GBを超えたタイミングで右端のGDDR5チップを利用するようにドライバー側で処理している。
厄介だったのは、この情報が後追いで出されたことだ。キャッシュの構成変更にともない、本来ならばGeForce GTX 970にはROP(Raster Operation Unit)が56個しかないはずだったのが、当初はGeForce GTX 980同様に64個と報じられていた。
GeForce GTX 980/970のレビューで「※訂正:NVIDIAの誤表記により、GeForce GTX 970のROP数を誤った数値で掲載しておりましたので、正しい数値に訂正しました。」とあるのが、まさにこれである。
しかもこれが露呈するのは、高負荷をかけた時(メモリーを3.5GBも使い切るとなると、けっこう大変である)のみというあたりで、意図的にこれを隠したと報じられたわけだ。
果てには、GIGABYTEのGeForce GTX 970カードを買ったAndrew Ostrowski氏がNVIDIA(とGIGABYTE)に対して訴訟を起こす(関連リンク)という騒ぎになっている。
法的な側面はおいておき、ユーザーにとってどの程度の実害があるかで言えば、3.5GB以上ビデオメモリーを使い切らないとこの弊害は出てこないので、そうした高負荷をかけそうな使い方(4K解像度で描画オプション最大設定など)をしない限りそうそう出会わないとは思うが、とにかくそうした制約があるのは事実である。
→次のページヘ続く (単精度に特化したGeForce GTX TITAN X)
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ