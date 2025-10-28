このページの本文へ

Intel Tech Tour 2025取材レポート【その4】

インテルの次期CPU「Panther Lake」のNPU5、IPU7.5、Bluetooth 6、Wi-Fi 7 R2を解説

2025年10月28日 10時00分更新

文● 加藤勝明（KTU）　編集●ジサトライッペイ／ASCII

インテルがエッジAI向けに投入するPanther Lake搭載ボード。「Robinson Lake」という開発コードネームはロボティクス向けであることを示唆しているようだ。ダイの大きさからPanther Lakeの16コア12Xe版であることがわかる

　インテルが社運をかけて実用化した「Intel 18A」プロセスを採用した「Panther Lake」（開発コードネーム）は、2026年に登場するであろうAIノートPCに搭載予定のモバイルPC向けCPUである。Panther Lakeについては、すでに3本の記事（概要CPUGPU）を掲載している。本稿はこれまで語っていないAIや画像処理、ワイヤレス機能に関して解説する。

「Intel Tech Tour 2025取材レポート【その1】

インテル復活の狼煙か!? Intel 18AプロセスのPanther Lakeの本格生産がついに始まった

　インテルは最新プロセス「Intel 18A」を採用した製品の多量生産に入ったことを発表。その実現に大きく寄与した技術「RibbonFET」と「PowerVia」を解説する。

「Intel Tech Tour 2025取材レポート【その2】

Tick-Tock戦略の再来？Panther Lakeが前世代から大きく変わらず性能が向上した理由

　Panther Lakeのパッケージの種類やアーキテクチャーを紹介。CPUコアは前世代からどれぐらい性能が向上しているのか。

「Intel Tech Tour 2025取材レポート【その3】

Panther LakeのGPU「Xe3」はなぜArc Bシリーズなのか？16コア12Xe版のゲーミング性能は前世代の倍でマルチフレーム生成も発表

　Panther Lakeの内蔵GPUアーキテクチャー「Xe3」にフォーカス！

面積を前世代より25％小さくしたNPU5

　2026年もPC業界の主軸はAIを実行できるPC、すなわち「AI PC」であることは間違いない。PCにおけるAI処理において最も強いユニットはGPUであり、CPUはその対極に位置する。

　だが、モバイルPC向けCPUでは常にGPUを回していてはバッテリーがもたない。CPUでは性能が足りないもののGPUに電力を使うほどではない処理はどうするか？　その答えが「NPU（Neural Processing Unit）」である。

　Panther Lake16コア12Xe版の場合、CPU全体のAI性能は最大180TOPS（以降、TOPSはパッケージの最大値を示すものとする）と、Lunar Lakeの120TOPSを大きく上回る。なお、180TOPSの内訳はGPUが120TOPS、NPUが50TOPS、CPUが10TOPSとなる。

Panther Lakeの16コア12Xe版のAI性能の内訳。NPUにはAIアシスタント的な立ち位置の処理を任せよう、とインテルは提唱している

　Panther LakeのNPUは、Lunar Lakeの第4世代（NPU4）から1世代進んだ第5世代NPU、すなわち「NPU5」となる。AI性能はNPU4の48TOPSに対し、NPU5は50TOPSとたった2TOPSしか向上していない。「これでNPU5を名乗って良いものなのか？」と考える方がいてもおかしくない小さな性能差だ。

　しかし、NPU5と名乗る理由はある。1つは面積効率の向上である。NPUはPanther Lakeのコンピュートタイル上にあるが、ほかの重要な機能のためにも小さく作る必要がある。Intel 18Aの採用で実装密度が上がったことにくわえ、後述する最適化によりNPU5はNPU4よりも「面積あたりのTOPS」を40％以上改善したという。

　その値からNPU5とNPU4の面積を推定すると、NPU5はNPU4よりも25％程度小さいという計算になる。プロセスルールの進化（TSMC N3E→Intel 18A）の効果だけでなく、回路そのものの最適化も行われているようだ。

Panther LakeのNPU5は、面積あたりのTOPSはNPU4より40％以上向上。NPU4はNPU5よりも1.34倍大きい計算になる

　では、面積が25％小さくなったのに性能が向上している理由を、NPU5の構造から考えてみよう。インテルのNPUは、内部に複数のNCE（Neural Compute Engine）がある。

　NCE内にはMACアレイ（Multiply-Accumulate：巨大な行列演算用のユニット）と、SHAVE DSP（インテルが買収したMovidiusが設計した命令長可変のDSP）、データ形式の変換やアクティベーション関数の実行ユニットなどを搭載する。ここで重要な点は、NCEとMACアレイの構成だ。

　NPU4では6基のNPUに対し、NPU5では半分の3基に減っている。しかし、内包するMACのサイズは倍になった。さらに、NPU4では必須だった演算時のゼロパディング（データをキリの良い大きさにするために追加するゼロの羅列）を不要にして並列処理をしやすくするなど、各所で効率を優先した改善を施している。

　さらに、NPU5ではローカルのAI処理には欠かせないFP8のサポートも追加。FP8を利用することでメモリー消費量が大きく減り、スループットが大幅に向上するからだ。ちなみに、FP8の表現形式にはHF8とBF8の2種類があるが、NPU5では両方に対応している。

NPU4（左）とNPU5（右）の比較。NPUの最少単位はNCEだが、NPU4で2基のNCEに分割して実装していたMACアレイをNPU5では1基にまとめた。MACアレイのマス目（MAC）の個数は同じだ。ちなみに、図に示す通り、NCE1基あたりにMACが256個しかないわけではない。実際はNCE1基あたり4096基（8bit演算時）のMACを配置している

NCEの上部にはスクラッチパッドRAMがある。これはNPU用のローカルメモリーであり、NPU4では4.5MB搭載している。NCEが6基から3基に減ってしまったが、同時にこれは各NCEに配置している管理用のユニットを削減し、無駄を省いたともいえる

NPU5ではFP16やINT8にくわえ、新たにFP8をサポート。NCE1基に搭載しているMACアレイでINT8またはFP8の演算をする場合は4096要素（16×16×16）、FP16として利用する場合は2048要素（16×16×8）の行列を1サイクルで計算できる

これはNPU4発表時の資料より引用。中央のINT8やFP16の図を見ればわかる通り、NPU5よりも1度に処理できる行列要素の数が少ない（1つ前の図と比較してほしい）

NPU5でサポートするFP8はより精度を重視したBF8（仮数部3bit＋指数部4bit＋符号1bit）と、表現できる数値の範囲が広いHF8（仮数部2bit＋指数部5bit＋符号1bit）の2通りとなる。どちらもFP16と比較してメモリー消費量が少なく、スループットも2倍となる

Stable DiffusionをFP16とFP8で実行した際の電力効率の比較。処理の大半はNPUで実行され、最後の処理のみGPUが稼働する。FP8はFP16と大差ない結果が得られるだけでなく、処理時間がより短く消費するエネルギーも約36％減少。ワットパフォーマンスで考えると50％程度改善するという

NPU5では、ニューラルネットワークの処理に欠かせない活性化関数を実行するユニットをプログラム可能になった。NPU4まではReLUのように線形的な活性化関数しかサポートしていないが、NPU5ではtanh関数やSigmoid関数もサポート。これまでSHAVE DSPの処理に頼ってきた処理がこのユニットで実行可能になった。右のグラフ（Sigmoid関数）のように直線的でない関数がそのまま実行できるわけだ

NPU4では直線的に変化するReLU関数やその類型しか扱えなかった。AIによってさまざまな活性化関数を使い分ける必要があるが、非線形的な変化をするSigmoid関数を使う場合、NPU4ではDSPで処理してもらう必要があったのだ

NPU4を1とした時のNPU5の計算性能を数値化したもの。Softmax関数はSHAVE DSPが減ったせいなのか微妙に遅いが、その他の処理においてはすべて上回っている。ただし、NPU5のFP8の性能とNPU4のFP16の性能を比較して1.9倍（＝ビット数が半分だから性能2倍）という数値も同列に出しているので、数字の読み方には注意が必要だろう

GPUがあるのにNPUを使う意義はあるのか？　という疑問に対する回答がこの展示。マイクでとらえた音声をNPUで分析し、Elgato製のテレプロンプター（中央）の文字を話者にあわせてスクロールするというデモ

しっかりNPUの負荷が上がっている。音声認識程度ではNPUは20％も使わないようだ

このデモを実行していたPanther Lake搭載ノートPC。Thunderbolt 4ドック経由でプロンプターやマイクなどを接続していた

NPU5の特徴を示したインフォグラフィック。Panther Lakeの8コア版のNPUでもAI処理性能は50TOPSに到達する。そのため、Panther Lake搭載PCは自動的にCopilot＋PCの要件を満たせるということになる

