前へ 1 2 3 次へ

Lunar LakeはNPUの動作周波数がアップし性能は2倍、ピーク性能は4倍に　インテル CPUロードマップ

2024年07月29日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

SHAVE DSPを大幅強化
ホストで処理していた作業をNCE側でカバーする

　NPUの構造に話を戻すと、MACユニットの方はより効率を高めた、という説明はあるものの、どう効率を上げたのかの詳細は説明されていない。

活性化関数の強化やデータの変換/並び替え「以外」にも効率性向上のなにかがあるらしいのだが

　活性化関数に関しては、NPU 3に比べて対応する関数を増やしたことが示されており、またデータ変換用の機能も搭載され、これまでだったらSHAVE DSPもしくはホストで処理していた作業をNCE側でカバーできるようになったとしている。

NPU 3でもFP16のサポートはあった記憶があるのだが、Activation FunctionではなくDSP側での対応だったのだろうか？

例えばFP16からINT 8への変換が今後は専用ハードウェアでできることになる。Fused Operationというあたり、MACアレイでの処理と同期するかたちで実行できるようだ

　そのSHAVE DSPが、NPU 4では大幅に強化された。SHAVE DSPはもともと1つのNCEに2つ搭載されており、それぞれ128bit幅のSIMDエンジンを搭載。INT 8/16/32とFP16/32を扱えるようになっていた。

NPU 4で大幅に強化されたSHAVE DSP。レジスターもまた512bit幅になっている

　もちろんこれは通常のMAC演算も可能ではあるのだが、それは専用のMACアレイを使った方が効率が良い。なので、MACアレイでサポートしていないINT 16/32やFP32での処理、あるいは通常の乗加算以外の処理を行なう場合に利用されることになる。

　さてそんなSHAVE DSPだが、NPU 4ではSIMDエンジンの幅が128bit→512bitと4倍に増強された。INT 8の場合で言えば64 Ops/サイクル(MAC演算の場合：通常の乗算なり加算なりだけなら32 Ops/サイクル)が可能であり、1個のNCEあたり128Ops/サイクルとなる。

　先程の性能の試算ではMACアレイだけを使う計算になっていたが、SHAVE DSPの性能が大きく上がった関係で、実際にはこちらも加味して計算をしている可能性がある。NCE1つあたりの処理性能は4352Ops/サイクルとなり、これが6つでかつ1.7GHz動作だと性能は44.4TOPSほど。1.75GHzだと45.7TOPSになり、上の試算より100MHz動作周波数を落とすことが可能になっている。

　このSHAVE DSPの性能を加味したものかどうかがハッキリしないので、動作周波数は一応推定1.85GHzとするが、実際は1.75GHzとか1.8GHzの可能性もある。

　さて、その46TOPS程度のNPU 4の性能は？　ということでインテルから示されたのはStable Diffusionを動かした場合の結果である。

連載781回で示したとおり、Lunar LakeのX^e2コアは理論上67TOPS程の性能であり、ピーク性能比較はNPUの方がやや低い結果になることそのものは変わらない

　Meteor Lakeの時もStable Diffusionを実施した場合の性能が示されたが、この時は比較対象がなかったこともあり、CPUでやった場合とGPUでやった場合、NPUを組み合わせた場合の4パターンでの比較である。

Meteor LakeでStable Diffusionを実施した場合の性能

　結果は連載740回の最後にも示したとおり、NPU 3を利用した場合の性能はGPUを利用した場合の7割程度に過ぎず、ただし消費電力が圧倒的に少ないというものだった。

　一方今回はMeteor LakeとLunar Lakeとの比較になるので、直接前回との比較にはならないのだが、まず性能で言えば20回の繰り返しに要した時間が20.9秒→5.8秒で3.6倍の性能向上となっている。一方でシステム全体での消費電力は9W→11.2Wと若干ではあるが増えているのは当然ではある。

　先に説明したように、NPU 4はNPU 3と比較してピークで4倍の性能になっているが、その一方でピーク時の消費電力は推定で2.58倍ほどになっている。実際はシステムの構成もメモリーの構成も異なるから無茶な計算ではあるのだが、この2.2Wの増分がNPU 3とNPU 4の消費電力の差だと仮定すると、NPU 3の消費電力は1.4W程度であり、NPU 4ではこれが3.6W程に増えたことになる。

　この数字、厳密さには欠けるものではあるのだが、案外に外していないのではないかと思う。Meteor Lakeでは省電力のSoCタイルで実装され、省電力に注力した構成になっている。NPU 2、つまりMyriad Xの場合は当初TSMCの16nm、次いで12nmに移行しているが、これが大体3W程度であった。NPU 3ではプロセスの微細化と省電力プロセスの採用もあり、2W以下に押し込むことは可能だろう(Myriad X VPUに搭載されていたISPを省けたことも効果あると思われる)。

　一方NPU 4の方は、1.8GHz前後の動作周波数ではあるが、これはTSMC N3Bプロセスとしてはかなり低い動作周波数レンジであり、消費電力もそれほど高くならない。3.6Wで収まるか？　というともう少し行きそうな気はするが、5Wまでは行かないだろう。

　ピーク性能はもちろんX^e2コアには及ばないだろうが、この程度の消費電力でこの性能なのは十分評価できる。総じて、良いバランスのNPUと言って良いだろう。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ