今回はInference(推論)向けプロセッサーの話だ。AI向けのニーズが高まり始めた当初、Armは意外に静観して見えた。当時はさまざまなAI向けプロセッサーが発表されていたものの、まだ実アプリケーションに組み込むという形での応用が今一つ明確になっておらず、どの程度アクセルを踏み込むべきか躊躇していたところもあるのかもしれない。
CPUとGPUでAI/ML(機械学習)のフレームワークを稼働させるためのArmNNこそ2018年に発表されたが、これは既存のプロセッサー/GPU IP上で主要なフレームワーク(当初はCaffe2のみだったが、今はだいぶ増えた)を容易に稼働させられるという以上のものではなく、当時のCPUやGPUのIPも決してAI/MLの動作に特化した機能(例えばFP16のサポートや畳み込み演算の高速化など)は搭載されていなかった。
ところがそうしているうちに、AI向けのニーズがどんどん出てきた。スマートフォンなら画像による本人認証や撮影した画像にAIを利用したフィルタリングをかける、あるいは動画の補正をAIで処理するということが一般的になってきたからだ。
これに向けてArmも水面下でAI/MLの機能をCPU/GPUに付加したり、AI/ML処理専用プロセッサーを開発したりしていた。2017年にはCortex-A75/A55でFP16とDot Products(内積の一種のドット積の演算)機能を追加。2018年2月にはProject Trilliumという名前でMLプロセッサーを開発していることを明らかにし、2018年8月のHotChips 30ではそのプロセッサーの詳細を公開した。
2019年の5月にまずEthos-N77を発表(ちなみにこの時にはArm ML Processorという名前であった)。次いで同年10月にはEthos-N37/N57を追加。そして2020年5月にはEthos-N78を追加している。このEthos-Nシリーズはスマートフォンやスマート家電、および高機能な組み込み機器をターゲットとしたもので、要求性能的には1TOPS~10TOPS程度が求められる分野となっていた。
Ethos-N87発表時のスライドより。監視カメラやエントリーレベルスマートフォンなどなら1~2TOPS、メインストリーム向けスマートフォンやスマートホーム(画像によるユーザー認証などが要求される)では2~4TOPS、AIを使った画像フィルタリングなどは最大10TOPSほどの処理性能が必要と見込んでいた
ちなみにこの4製品のラインナップであるが、基本的な構成は同じで、AI処理を行なうCE(Compute Engine)の数と搭載するSRAMの容量のみの差であり、以下のようになっている。
| Ethos-Nシリーズの差異 | ||||||
|---|---|---|---|---|---|---|
| CU数 | SRAM | 想定性能 | ||||
| Ethos-N37 | 最大4 | 512KB | 最大1TOPS | |||
| Ethos-N57 | 最大8 | 512KB | 最大2TOPS | |||
| Ethos-N77 | 最大16 | 1~4MB | 最大4TOPS | |||
| Ethos-N78 | 最大32 | 384K~4MB | 最大10TOPS | |||
動作周波数に関しては、ArmはIPを提供するだけなので、最終的な決定はArmではなくSoCベンダーが行なうことになるが、Ethos-N37~N77は一応1GHz程度の動作を想定した数字であり、一方Ethos-N78のみ、おそらく5nmプロセスあたりがターゲットとなっている関係で、動作周波数をもう少し引き上げて1.25GHz程度を想定していると考えられる。
さて、問題はこのEthos-Nシリーズが市場をつかめなかったことだ。主要なスマートフォン向けSoCベンダーは、Ethos-Nシリーズが発表される前から相次いで自社開発のAI/MLプロセッサーを搭載。各社のスマートフォンはこうした独自プロセッサーを利用して撮影した映像のフィルタリングや映像効果付与などに利用し始め、ArmのAI/ML向けプロセッサーIPがなくても困らない状況ができあがってしまった。
例えばAppleで言えば、2017年9月に発表されたiPhone 8シリーズに搭載されたApple A11にNeural Engineと呼ばれるAIプロセッサーが初搭載された。ということは、2017年の早い時期にA11の量産に入っていたわけで、これに間に合わせようと思ったら2016年では間に合わず、2015年中にIPを提供しないといけない。QualcommやHuawei、MediaTekなどのSoCベンダーでも話は同じであり、こうした主要なスマートフォン向けSoCベンダーの製品にEthosシリーズは採用されていない。
Armにこのあたりの話を聞くと「確かに今は少ないが、今後新たにSoCを構築するベンダーはまだAIプロセッサーを持っていないので、そうしたベンダーにとっては(CPUと併せて)ワンストップでIPを提供するというのは大きなメリットとなる」「現在は自分たちで設計しているかもしれないが、今後それをさらに発展させていくための費用はバカにならない。どこかで経済的に折り合いがつかなくなるだろう」と一応静観の構えである。
もちろん長期的には使われていく可能性はあるが、少なくとも短期的には市場をつかむことに失敗したわけだ。ここまで連載で紹介してきたベンチャー系と異なり、Armは別にEthosシリーズを売りそこなったからといって、それで会社が揺らいだりはしないので、落ち着いていられるということもある。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











