このページの本文へ

前へ 1 2 3 次へ

Intel Tech Tour 2025取材レポート【その4】

インテルの次期CPU「Panther Lake」のNPU 5、IPU 7.5、Bluetooth 6、Wi-Fi 7 R2を解説

2025年10月28日 10時00分更新

文● 加藤勝明(KTU) 編集●ジサトライッペイ/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷
Panther Lake

インテルがエッジAI向けに投入するPanther Lake搭載ボード。「Robinson Lake」という開発コードネームはロボティクス向けであることを示唆しているようだ。ダイの大きさからPanther Lakeの16コア12Xe版であることがわかる

 インテルが社運をかけて実用化した「Intel 18A」プロセスを採用した「Panther Lake」(開発コードネーム)は、2026年に登場するであろうAIノートPCに搭載予定のモバイルPC向けCPUである。Panther Lakeについては、すでに3本の記事(概要CPUGPU)を掲載している。本稿はこれまで語っていないAIや画像処理、ワイヤレス機能に関して解説する。

「Intel Tech Tour 2025取材レポート【その1】

 インテルは最新プロセス「Intel 18A」を採用した製品の多量生産に入ったことを発表。その実現に大きく寄与した技術「RibbonFET」と「PowerVia」を解説する。

「Intel Tech Tour 2025取材レポート【その2】

 Panther Lakeのパッケージの種類やアーキテクチャーを紹介。CPUコアは前世代からどれぐらい性能が向上しているのか。

「Intel Tech Tour 2025取材レポート【その3】

 Panther Lakeの内蔵GPUアーキテクチャー「Xe3」にフォーカス!

面積を前世代より25%小さくしたNPU 5

 2026年もPC業界の主軸はAIを実行できるPC、すなわち「AI PC」であることは間違いない。PCにおけるAI処理において最も強いユニットはGPUであり、CPUはその対極に位置する。

 だが、モバイルPC向けCPUでは常にGPUを回していてはバッテリーがもたない。CPUでは性能が足りないもののGPUに電力を使うほどではない処理はどうするか? その答えが「NPU(Neural Processing Unit)」である。

 Panther Lake16コア12Xe版の場合、CPU全体のAI性能は最大180TOPS(以降、TOPSはパッケージの最大値を示すものとする)と、Lunar Lakeの120TOPSを大きく上回る。なお、180TOPSの内訳はGPUが120TOPS、NPUが50TOPS、CPUが10TOPSとなる。

Panther Lake

Panther Lakeの16コア12Xe版のAI性能の内訳。NPUにはAIアシスタント的な立ち位置の処理を任せよう、とインテルは提唱している

 Panther LakeのNPUは、Lunar Lakeの第4世代(NPU 4)から1世代進んだ第5世代NPU、すなわち「NPU 5」となる。AI性能はNPU 4の48TOPSに対し、NPU 5は50TOPSとたった2TOPSしか向上していない。「これでNPU 5を名乗って良いものなのか?」と考える方がいてもおかしくない小さな性能差だ。

 しかし、NPU 5と名乗る理由はある。1つは面積効率の向上である。NPUはPanther Lakeのコンピュートタイル上にあるが、ほかの重要な機能のためにも小さく作る必要がある。Intel 18Aの採用で実装密度が上がったことにくわえ、後述する最適化によりNPU 5はNPU 4よりも「面積あたりのTOPS」を40%以上改善したという。

 その値からNPU 5とNPU 4の面積を推定すると、NPU 5はNPU 4よりも25%程度小さいという計算になる。プロセスルールの進化(TSMC N3E→Intel 18A)の効果だけでなく、回路そのものの最適化も行われているようだ。

Panther Lake

Panther LakeのNPU 5は、面積あたりのTOPSはNPU 4より40%以上向上。NPU 4はNPU 5よりも1.34倍大きい計算になる

 では、面積が25%小さくなったのに性能が向上している理由を、NPU 5の構造から考えてみよう。インテルのNPUは、内部に複数のNCE(Neural Compute Engine)がある。

 NCE内にはMACアレイ(Multiply-Accumulate:巨大な行列演算用のユニット)と、SHAVE DSP(インテルが買収したMovidiusが設計した命令長可変のDSP)、データ形式の変換やアクティベーション関数の実行ユニットなどを搭載する。ここで重要な点は、NCEとMACアレイの構成だ。

 NPU 4では6基のNPUに対し、NPU 5では半分の3基に減っている。しかし、内包するMACのサイズは倍になった。さらに、NPU 4では必須だった演算時のゼロパディング(データをキリの良い大きさにするために追加するゼロの羅列)を不要にして並列処理をしやすくするなど、各所で効率を優先した改善を施している。

 さらに、NPU 5ではローカルのAI処理には欠かせないFP8のサポートも追加。FP8を利用することでメモリー消費量が大きく減り、スループットが大幅に向上するからだ。ちなみに、FP8の表現形式にはHF8とBF8の2種類があるが、NPU 5では両方に対応している。

Panther Lake

NPU 4(左)とNPU 5(右)の比較。NPUの最少単位はNCEだが、NPU 4で2基のNCEに分割して実装していたMACアレイをNPU 5では1基にまとめた。MACアレイのマス目(MAC)の個数は同じだ。ちなみに、図に示す通り、NCE1基あたりにMACが256個しかないわけではない。実際はNCE1基あたり4096基(8bit演算時)のMACを配置している

Panther Lake

NCEの上部にはスクラッチパッドRAMがある。これはNPU用のローカルメモリーであり、NPU 4では4.5MB搭載している。NCEが6基から3基に減ってしまったが、同時にこれは各NCEに配置している管理用のユニットを削減し、無駄を省いたともいえる

Panther Lake

NPU 5ではFP16やINT8にくわえ、新たにFP8をサポート。NCE1基に搭載しているMACアレイでINT8またはFP8の演算をする場合は4096要素(16×16×16)、FP16として利用する場合は2048要素(16×16×8)の行列を1サイクルで計算できる

Panther Lake

これはNPU 4発表時の資料より引用。中央のINT8やFP16の図を見ればわかる通り、NPU 5よりも1度に処理できる行列要素の数が少ない(1つ前の図と比較してほしい)

Panther Lake

NPU 5でサポートするFP8はより精度を重視したBF8(仮数部3bit+指数部4bit+符号1bit)と、表現できる数値の範囲が広いHF8(仮数部2bit+指数部5bit+符号1bit)の2通りとなる。どちらもFP16と比較してメモリー消費量が少なく、スループットも2倍となる

Panther Lake

Stable DiffusionをFP16とFP8で実行した際の電力効率の比較。処理の大半はNPUで実行され、最後の処理のみGPUが稼働する。FP8はFP16と大差ない結果が得られるだけでなく、処理時間がより短く消費するエネルギーも約36%減少。ワットパフォーマンスで考えると50%程度改善するという

Panther Lake

NPU 5では、ニューラルネットワークの処理に欠かせない活性化関数を実行するユニットをプログラム可能になった。NPU 4まではReLUのように線形的な活性化関数しかサポートしていないが、NPU 5ではtanh関数やSigmoid関数もサポート。これまでSHAVE DSPの処理に頼ってきた処理がこのユニットで実行可能になった。右のグラフ(Sigmoid関数)のように直線的でない関数がそのまま実行できるわけだ

Panther Lake

NPU 4では直線的に変化するReLU関数やその類型しか扱えなかった。AIによってさまざまな活性化関数を使い分ける必要があるが、非線形的な変化をするSigmoid関数を使う場合、NPU 4ではDSPで処理してもらう必要があったのだ

Panther Lake

NPU 4を1とした時のNPU 5の計算性能を数値化したもの。Softmax関数はSHAVE DSPが減ったせいなのか微妙に遅いが、その他の処理においてはすべて上回っている。ただし、NPU 5のFP8の性能とNPU 4のFP16の性能を比較して1.9倍(=ビット数が半分だから性能2倍)という数値も同列に出しているので、数字の読み方には注意が必要だろう

Panther Lake

GPUがあるのにNPUを使う意義はあるのか? という疑問に対する回答がこの展示。マイクでとらえた音声をNPUで分析し、Elgato製のテレプロンプター(中央)の文字を話者にあわせてスクロールするというデモ

Panther Lake

しっかりNPUの負荷が上がっている。音声認識程度ではNPUは20%も使わないようだ

Panther Lake

このデモを実行していたPanther Lake搭載ノートPC。Thunderbolt 4ドック経由でプロンプターやマイクなどを接続していた

Panther Lake

NPU 5の特徴を示したインフォグラフィック。Panther Lakeの8コア版のNPUでもAI処理性能は50TOPSに到達する。そのため、Panther Lake搭載PCは自動的にCopilot+PCの要件を満たせるということになる

前へ 1 2 3 次へ

カテゴリートップへ

注目ニュース

ASCII倶楽部

  • 角川アスキー総合研究所
ピックアップ

ASCII.jpメール アキバマガジン

デジタル用語辞典