ロードマップでわかる!当世プロセッサー事情 第673回
インテルがAIプロセッサーに関する論文でIntel 4の開発が順調であることを強調 AIプロセッサーの昨今
2022年06月27日 12時00分更新
汎用品と比べて性能は260倍、エネルギー効率は35倍
おそろしく効率の良い演算が可能
今回インテルはIntel 4プロセスを使ってこのプロセッサーを製造している。CNCを追加したことによるオーバーヘッドはエリアサイズの1.4%増加程度に留められている。プログラムはほとんどの部分がRISC-V用のコンパイラを使ってC++で記述され、今回追加したCNC向けはインラインアセンブラで記述、というやり方で試したそうだ。
下の画像は電圧と動作周波数および消費電力をまとめたものである。青い方は電圧-動作周波数の関係で、0.55Vで350MHz、0.75Vで1.15GHz動作となっている。
CVA6のような単純な(つまりパイプライン1段あたりの処理が大きく、動作周波数を上げやすい)コアでも0.85Vで1.15GHz動作するという話であり、その際の消費電力は0.55Vでわずか73mW、0.85Vでも510mWでしかない。
一方で性能の方は、8コアを1GHzで動かしたときに75.8GOPSほど。1GHzでは消費電力は400mW程度なので、性能は189.5GOPS/Wほどになる。500MHzまで落とすと285GOPS/W、LLCだけの消費電力で言えば1.6TOPS/Wという、おそろしく効率の良い演算が可能になる、とされた。
さて上で説明したように、CNCは汎用というよりはもう明確に畳み込み演算に特化した構造になっているわけで、当然ながらAIというか畳み込みニューラルネットワークでの処理性能が重要になってくる。これに関して、CVA6の内蔵エンジン(スカラー:赤)と、CNC(青)を利用した場合の性能を、全結合層と畳み込み層で比較したのが下の画像である。
スカラーを使うと、とにかく性能が低いというか全然話にならないし、ウェイトデータの次元数やウェイトのチャネルが増えても全然性能が上がらないが、CNCではどんどん性能が改善し、しかも消費電力そのものはスカラーより低めだから、エネルギー効率は52倍や29倍という話になる。
もう少し現実的な比較としては、MLPerfのTiny Anomaly Detectionを実施してみた結果がこちら。This Workというのが今回のもので、他のNucleoやRaspberry Piなどは、すでにMLPerfに登録されている結果である。
2つ目のPeng Cheng Laboratoryは32bit RISC-Vコアを使ったものだが、ボードの詳細が不明である。ひょっとしてFPGAかなにかで実装してテストした結果なのかもしれない(消費電力が示されていないあたりがいかにもそれらしい)
ただこれも、汎用のRaspberry Pi 4を使ったとか、一番上のNucleo-L4R5ZIに至ってはSTMicroelectronicsの出している開発ボードであるSTM32 Nucleo-144を使ったものなので、性能比較の対象としてどうだろう? という気はするのだが、とりあえずこうした汎用品と比べてレイテンシーは4分の1未満であり、性能は260倍、エネルギー効率は35倍にもなる、という説明であった。
インテルがこれを直近の製品に投入する可能性は少ない。Meteor LakeはMyriad Xないしその次期製品を統合するらしいという話は連載657回で説明したが、実際に統合されるのは第3世代のVPU(つまりMyriad Xの次の世代のもの)になるとのことだ。
ついでに言えばこの第3世代のVPUは単体カードでの提供の予定はなくなり、Movidiusのチームは全部CCG(Client Computing Group)に移籍したとかで、今後はCoreプロセッサーの中のアクセラレーターとして提供されることになる。したがって、直近はこのMovidius由来のものが使われることになるだろう。ただ長期的には、PIMというかCNCというか、そうしたモデルがAI向けにはけっこう有用ということが今回の論文で示された格好だ。
ちなみにこの論文の影の役割は、「Intel 4が確実に来そう、と人々に信じさせること」である。今回RISC-VコアをIntel 4で製造して見せたというのは、IFS(Intel Foundry Service)がRISC-V Internationalに加盟してRISC-Vコアの製造をサポートし、またIFSの最初の汎用ロジック向けがIntel 3であることを考えると、「この通り作れます」というアピールになるわけだ。
冒頭でIntelがVLSI Symposiumで論文を12本を出した、という話をしたが、このうち以下の5本がIntel 4に絡めたものになっている。
| VLSI Symposium 2022で発表されたIntel 4に関する論文 | ||||||
|---|---|---|---|---|---|---|
| T01-1 | Intel 4 CMOS Technology Featuring Advanced FinFET Transistors optimized for High Density and High Performance Computing | |||||
| C08-1 | An 8-core RISC-V Processor with Compute near Last Level Cache in Intel 4 CMOS | |||||
| C13-3 | A 90.9kS/s, 0.7nJ/conversion Hybrid Temperature Sensor in 4nm-class CMOS | |||||
| C16-1 | A 7Gbps SCA-Resistant Multiplicative-Masked AES Engine in Intel 4 CMOS | |||||
| C24-1 | Energy-Efficient High Bandwidth 6T SRAM Design on Intel 4 CMOS Technology | |||||
冒頭のT01-1はそのものズバリIntel 4の詳細だが、それ以外にIntel 4を利用した回路の論文を4つも出すあたり、インテルとしてはこんな形でIntel 4が順調であることを強調する必要性がある、というあたりが逆にIntel 4に不安を感じさせる。筆者の勘繰り過ぎだと良いのだが。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ















