圧倒的に高い性能を低い消費電力で実現
TENSAIの中身だが、構造自身はいたって常識的だ。マイコンのコアそのものはArmのCortex-M3という、おそらく世界で一番多いMCU(*2)で、それにDual MACのDSPと64KBのSRAM、それと周辺機器を組み合わせているだけだ。
実はこのDSPは、NXPのCoolFluxという、もともとはオーディオ処理用のDSPのライセンスを受けて実装しているものだ。構成はDual 16bit MAXとあるので、おそらくDSP16というタイプのものだろう。こちらもライセンスを受けたものなので内部構造そのものは一切手を入れられない。
ただETA Computeの場合、デジタル技術よりもアナログ技術に強みがある。具体的に言えば、IPとして提供されたもの(つまりRTLそのもの)には手は入れられないが、それを物理実装する際に独自のノウハウを注ぎ込める。
もともと2017年に発表したIPがまさしくそうしたものであり、TENSAIチップにもそうしたノウハウは注ぎ込まれた。
この結果として、CPUコアは他社製品と比較して圧倒的に高い性能を、しかも低い消費電力で実現できているとする。
同じ動作周波数であってもより低い消費電力で動作するのであれば、逆に言えば従来のMCUでは性能や消費電力の壁にあたって性能が出せないという場合でも、TENSAIコアでは切り抜けられることになる。
またDSPはもともとCNNの実行に都合が良い、という話は前回もご紹介した通りだ。実はArmも、Cortex-M4の世代からDSP命令と呼ばれる命令拡張を追加しているが、これはいわば「DSP風」命令であって、実際の性能はDSPにはおよばないし、なにより消費電力が圧倒的にDSPより多くなる。
前回のCEVAもそのあたりを差別化要因として、「Armコア+CEVAのDSPという形で性能と消費電力のバランスを改善できますよ」という売り方をしている(*3)。
ETA ComputeもやはりCoolFluxを組み合わせているが、特徴的なのはCPUコアと非同期なことだ。これにより、例えばDSPでCNNのネットワークをブン廻している間はCPUの動作周波数を下げたり待機させたりすることで、省電力化が狙えることになる。
ETA Computeの説明によれば、STMicroのMCUをCPUコアだけで処理した場合に比べ、75倍の性能効率向上が図れたとしている。
CIFAR10は32×32ピクセルという非常に小さな画像を利用しての物体認識だから、MCUには手頃(ただし実用性は「?」)なネットワークであるが、TENSAIでは画像の読み込みやそのロードと最後の処理をCortex-M3コアで、3層の畳み込みはCoolFlux DSPで行なうという形で作業を分担している。
CIFAR10以外のAIアプリケーション例として示されたのが下の画像だ。とにかく圧倒的に少ない消費電力でAIアプリケーションを駆動できるというのがTENSAIチップの最大のアドバンテージである。この省電力性を生かして、Extreme Edgeでもっとさまざまな計算処理をさせられるというのが同社の説明であった。
(*2) Cortex-Mシリーズの最初の製品。ベストセラーというか、ロングセラーというか。ただ微妙なのは、その後で出たCortex-M0(廉価版)の方が、価格が安い分ひょっとすると上かもしれないところ。このあたりの集計はArmも出してくれていない。
(*3) Arm TechConにはしばしばCEVAがブースを出しており、「御社はArmの競合じゃないの?」と話を振ったら「いやいや、ウチはあくまでもDSPのIPを提供するだけで、汎用的な処理はMCUなりMPUが必要で、そこはArmに任せた方がいい。だから補完関係にあるわけで、Armさんとは仲良くやっていきたいですよ(棒)」という返事が。
この連載の記事
-
第774回
PC
日本の半導体メーカーが開発協力に名乗りを上げた次世代Esperanto ET-SoC AIプロセッサーの昨今 -
第773回
PC
Sound Blasterが普及に大きく貢献したGame Port 消え去ったI/F史 -
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ - この連載の一覧へ