ロードマップでわかる!当世プロセッサー事情 第782回
Lunar LakeはNPUの動作周波数がアップし性能は2倍、ピーク性能は4倍に インテル CPUロードマップ
2024年07月29日 12時00分更新
SHAVE DSPを大幅強化
ホストで処理していた作業をNCE側でカバーする
NPUの構造に話を戻すと、MACユニットの方はより効率を高めた、という説明はあるものの、どう効率を上げたのかの詳細は説明されていない。
活性化関数に関しては、NPU 3に比べて対応する関数を増やしたことが示されており、またデータ変換用の機能も搭載され、これまでだったらSHAVE DSPもしくはホストで処理していた作業をNCE側でカバーできるようになったとしている。
そのSHAVE DSPが、NPU 4では大幅に強化された。SHAVE DSPはもともと1つのNCEに2つ搭載されており、それぞれ128bit幅のSIMDエンジンを搭載。INT 8/16/32とFP16/32を扱えるようになっていた。
もちろんこれは通常のMAC演算も可能ではあるのだが、それは専用のMACアレイを使った方が効率が良い。なので、MACアレイでサポートしていないINT 16/32やFP32での処理、あるいは通常の乗加算以外の処理を行なう場合に利用されることになる。
さてそんなSHAVE DSPだが、NPU 4ではSIMDエンジンの幅が128bit→512bitと4倍に増強された。INT 8の場合で言えば64 Ops/サイクル(MAC演算の場合:通常の乗算なり加算なりだけなら32 Ops/サイクル)が可能であり、1個のNCEあたり128Ops/サイクルとなる。
先程の性能の試算ではMACアレイだけを使う計算になっていたが、SHAVE DSPの性能が大きく上がった関係で、実際にはこちらも加味して計算をしている可能性がある。NCE1つあたりの処理性能は4352Ops/サイクルとなり、これが6つでかつ1.7GHz動作だと性能は44.4TOPSほど。1.75GHzだと45.7TOPSになり、上の試算より100MHz動作周波数を落とすことが可能になっている。
このSHAVE DSPの性能を加味したものかどうかがハッキリしないので、動作周波数は一応推定1.85GHzとするが、実際は1.75GHzとか1.8GHzの可能性もある。
さて、その46TOPS程度のNPU 4の性能は? ということでインテルから示されたのはStable Diffusionを動かした場合の結果である。
連載781回で示したとおり、Lunar LakeのXe2コアは理論上67TOPS程の性能であり、ピーク性能比較はNPUの方がやや低い結果になることそのものは変わらない
Meteor Lakeの時もStable Diffusionを実施した場合の性能が示されたが、この時は比較対象がなかったこともあり、CPUでやった場合とGPUでやった場合、NPUを組み合わせた場合の4パターンでの比較である。
結果は連載740回の最後にも示したとおり、NPU 3を利用した場合の性能はGPUを利用した場合の7割程度に過ぎず、ただし消費電力が圧倒的に少ないというものだった。
一方今回はMeteor LakeとLunar Lakeとの比較になるので、直接前回との比較にはならないのだが、まず性能で言えば20回の繰り返しに要した時間が20.9秒→5.8秒で3.6倍の性能向上となっている。一方でシステム全体での消費電力は9W→11.2Wと若干ではあるが増えているのは当然ではある。
先に説明したように、NPU 4はNPU 3と比較してピークで4倍の性能になっているが、その一方でピーク時の消費電力は推定で2.58倍ほどになっている。実際はシステムの構成もメモリーの構成も異なるから無茶な計算ではあるのだが、この2.2Wの増分がNPU 3とNPU 4の消費電力の差だと仮定すると、NPU 3の消費電力は1.4W程度であり、NPU 4ではこれが3.6W程に増えたことになる。
この数字、厳密さには欠けるものではあるのだが、案外に外していないのではないかと思う。Meteor Lakeでは省電力のSoCタイルで実装され、省電力に注力した構成になっている。NPU 2、つまりMyriad Xの場合は当初TSMCの16nm、次いで12nmに移行しているが、これが大体3W程度であった。NPU 3ではプロセスの微細化と省電力プロセスの採用もあり、2W以下に押し込むことは可能だろう(Myriad X VPUに搭載されていたISPを省けたことも効果あると思われる)。
一方NPU 4の方は、1.8GHz前後の動作周波数ではあるが、これはTSMC N3Bプロセスとしてはかなり低い動作周波数レンジであり、消費電力もそれほど高くならない。3.6Wで収まるか? というともう少し行きそうな気はするが、5Wまでは行かないだろう。
ピーク性能はもちろんXe2コアには及ばないだろうが、この程度の消費電力でこの性能なのは十分評価できる。総じて、良いバランスのNPUと言って良いだろう。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ
















