ロードマップでわかる!当世プロセッサー事情 第673回
インテルがAIプロセッサーに関する論文でIntel 4の開発が順調であることを強調 AIプロセッサーの昨今
2022年06月27日 12時00分更新
汎用品と比べて性能は260倍、エネルギー効率は35倍
おそろしく効率の良い演算が可能
今回インテルはIntel 4プロセスを使ってこのプロセッサーを製造している。CNCを追加したことによるオーバーヘッドはエリアサイズの1.4%増加程度に留められている。プログラムはほとんどの部分がRISC-V用のコンパイラを使ってC++で記述され、今回追加したCNC向けはインラインアセンブラで記述、というやり方で試したそうだ。
下の画像は電圧と動作周波数および消費電力をまとめたものである。青い方は電圧-動作周波数の関係で、0.55Vで350MHz、0.75Vで1.15GHz動作となっている。
CVA6のような単純な(つまりパイプライン1段あたりの処理が大きく、動作周波数を上げやすい)コアでも0.85Vで1.15GHz動作するという話であり、その際の消費電力は0.55Vでわずか73mW、0.85Vでも510mWでしかない。
一方で性能の方は、8コアを1GHzで動かしたときに75.8GOPSほど。1GHzでは消費電力は400mW程度なので、性能は189.5GOPS/Wほどになる。500MHzまで落とすと285GOPS/W、LLCだけの消費電力で言えば1.6TOPS/Wという、おそろしく効率の良い演算が可能になる、とされた。
さて上で説明したように、CNCは汎用というよりはもう明確に畳み込み演算に特化した構造になっているわけで、当然ながらAIというか畳み込みニューラルネットワークでの処理性能が重要になってくる。これに関して、CVA6の内蔵エンジン(スカラー:赤)と、CNC(青)を利用した場合の性能を、全結合層と畳み込み層で比較したのが下の画像である。
スカラーを使うと、とにかく性能が低いというか全然話にならないし、ウェイトデータの次元数やウェイトのチャネルが増えても全然性能が上がらないが、CNCではどんどん性能が改善し、しかも消費電力そのものはスカラーより低めだから、エネルギー効率は52倍や29倍という話になる。
もう少し現実的な比較としては、MLPerfのTiny Anomaly Detectionを実施してみた結果がこちら。This Workというのが今回のもので、他のNucleoやRaspberry Piなどは、すでにMLPerfに登録されている結果である。
ただこれも、汎用のRaspberry Pi 4を使ったとか、一番上のNucleo-L4R5ZIに至ってはSTMicroelectronicsの出している開発ボードであるSTM32 Nucleo-144を使ったものなので、性能比較の対象としてどうだろう? という気はするのだが、とりあえずこうした汎用品と比べてレイテンシーは4分の1未満であり、性能は260倍、エネルギー効率は35倍にもなる、という説明であった。
インテルがこれを直近の製品に投入する可能性は少ない。Meteor LakeはMyriad Xないしその次期製品を統合するらしいという話は連載657回で説明したが、実際に統合されるのは第3世代のVPU(つまりMyriad Xの次の世代のもの)になるとのことだ。
ついでに言えばこの第3世代のVPUは単体カードでの提供の予定はなくなり、Movidiusのチームは全部CCG(Client Computing Group)に移籍したとかで、今後はCoreプロセッサーの中のアクセラレーターとして提供されることになる。したがって、直近はこのMovidius由来のものが使われることになるだろう。ただ長期的には、PIMというかCNCというか、そうしたモデルがAI向けにはけっこう有用ということが今回の論文で示された格好だ。
ちなみにこの論文の影の役割は、「Intel 4が確実に来そう、と人々に信じさせること」である。今回RISC-VコアをIntel 4で製造して見せたというのは、IFS(Intel Foundry Service)がRISC-V Internationalに加盟してRISC-Vコアの製造をサポートし、またIFSの最初の汎用ロジック向けがIntel 3であることを考えると、「この通り作れます」というアピールになるわけだ。
冒頭でIntelがVLSI Symposiumで論文を12本を出した、という話をしたが、このうち以下の5本がIntel 4に絡めたものになっている。
VLSI Symposium 2022で発表されたIntel 4に関する論文 | ||||||
---|---|---|---|---|---|---|
T01-1 | Intel 4 CMOS Technology Featuring Advanced FinFET Transistors optimized for High Density and High Performance Computing | |||||
C08-1 | An 8-core RISC-V Processor with Compute near Last Level Cache in Intel 4 CMOS | |||||
C13-3 | A 90.9kS/s, 0.7nJ/conversion Hybrid Temperature Sensor in 4nm-class CMOS | |||||
C16-1 | A 7Gbps SCA-Resistant Multiplicative-Masked AES Engine in Intel 4 CMOS | |||||
C24-1 | Energy-Efficient High Bandwidth 6T SRAM Design on Intel 4 CMOS Technology |
冒頭のT01-1はそのものズバリIntel 4の詳細だが、それ以外にIntel 4を利用した回路の論文を4つも出すあたり、インテルとしてはこんな形でIntel 4が順調であることを強調する必要性がある、というあたりが逆にIntel 4に不安を感じさせる。筆者の勘繰り過ぎだと良いのだが。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ