第4世代GCNを採用する
新アーキテクチャー「Polaris」
さて問題はその次である。前回の記事でも少し触れたが、今年のCESにおいてAMDはPolarisアーキテクチャーの発表を行なうとともに、実際のシリコンを利用してのデモも行なった。まずはこの話をしよう。
今回AMDはFinFETを利用して製造する新世代製品にPolarisアーキテクチャーという名称をつけたことを明らかにした。
ただ基本的には「第4世代GCN」という言い方をしているため、従来のGCNのアーキテクチャーを全部捨てたわけではなく、GCNをさらに強化したという方向性に見える。
これは下の画像の一番左で、ハードウェアベースのスケジューラーや命令プリフェッチを追加したり、シェーダーの効率性を上げたりといった項目が並んでいるからだ。
他にもDisplay Port 1.3(1.4aでないのが不思議だが)や、HDMI 2.0のサポート、H.265で最大4K60fpsのエンコード、あるいはH.265 main10のデコードなどを備えたビデオアクセラレーターも搭載されるとしている。
下の画像がそのPolarisアーキテクチャーの内部構造である。もっともこれだけでは旧来のGCN(例えばRadeon HD 7970の内部構造)となにが違うのかがさっぱりわからないのだが、1月時点ではその詳細を公開するつもりはないようで、これ以上の情報はない。
さて、ではCESにおいてなにに力点を置いたかといえば、FinFETの性能である。なぜFinFETを使うのかについてのAMDとしての回答がこちら右下の画像であるが、要するにプロセスをそのままだと静的なリーク電流を減らすことはできても、有効電力は下がらないからということになる。
もっともBack bias(RBB:Reverse Body Bias)に言及するのなら、Forwad bias(FBB:Forward Body Bias)使えば性能上がるのでは? という議論もあるのだが、FBBでは消費電力が増えてしまうので性能/電力比は悪化するため、あえて入れていないのだろう。
その結果として、業界としては16nm以下に関してはほぼすべてがFinFETに移行することになった。
実用化という意味ではインテルの22nmが最初だが、その後TSMCやGlobalFoundriesなどが20nmのプレーナ型をリリースしているので、完全にFinFETに統一されたのは16nm以下、という話である。
理論上FinFET構成にするとプレーナ型よりも有利、という話は連載248回でも解説したが、結果として28nm世代と比較して「同じリーク電流ならば、より高速にトランジスタを動かせる」ことになる。
同じように、28nmと比較して「同じダナミックパワーならば、より高速にトランジスタが動かせる」ともいえる。
ただGPUの場合、必ずしも高速にトランジスタが動く必要はない。それは昨今のGPUがいずれも1GHzあたりの動作周波数に留まっていることからも容易に想像がつく。むしろ問題は熱密度である。
とにかく大量のシェーダーを同時に動かすことが性能向上のポイントであり、そのためには大量の回路が同時に動作しなければならない。ところがここで静的あるいは動的な電力が大きいと、単位面積あたりの消費電力が急増することになり、その結果発熱も急増する。
したがってFinFETを利用しつつも、あえて動作周波数を増やさずに留めることで、より多くのシェーダーを同時に動かしても消費電力あるいは熱的に問題ない範囲にとどめよう、というのが基本的な設計目標である。
これを端的にしめしたのがCESにおけるデモである。このデモではGTX950とPolarisベースのGPUを同程度の負荷で動かした場合、消費電力が54Wも削減できることが示された。
この様子はAMD公式のYouTube Videoの2:00あたりから確認できる。正確な数字はわからないが、GeForce GTX 950が90W TDPの構成で、逆算するとCPUその他が50Wということになる。
筆者はGeForce GTX 950でStar Wars Battlefrontの評価を行なった経験はないのだが、海外メディアの評価を見ていると設定がHighの場合にだいたい60fps前後の平均フレームレートだそうだ。
今回のようにMed Presetの環境で動かしたテストでは、ややGPUの負荷は低くなるだろうから、GeForce GTX 950の消費電力はおおむね80W前後ではないかと思う。
だとするとCPUその他が60W程度。そこから推定するとPolarisベースのGPUは26Wそこそこで動作するということになる。
この推定が正しければ、スライドにある“Significant Perf/W improvement”(非常に大きな性能/消費電力比の改善)の文言は、その意味では大げさではないことになる。
この連載の記事
-
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ