CEVA Inc.はDSP Groupの
プロセッサー販売専門会社
話を戻すと、DSP Groupはやはり音声向けDSPを、主に電話、それも音声自動応答システムやビジネスホンなど、高付加価値系の電話や、初期のデジタルコードレスホンなど投入するとともに、携帯電話ビジネスにも参入していく。
このうちコードレスホンのビジネスはAMDに、携帯電話ビジネスはインテルにそれぞれ買収された。DSP Groupそのものはマルチメディア系やWi-Fi、ケーブルモデムなどにフォーカスしていくが、この途中でDSPのコアそのものをIPとして外販するビジネス部隊を独立させた。これがCEVA Inc.である。
ちなみにDSP Groupそのものは2007年にNXPに買収されてしまっており、現時点ではCEVAが唯一残ったビジネスユニットということになる。CEVAそのものはまだ創業20年に達していないが、DSPそのものは30年以上に渡って手掛けてきたという、やや辻褄が合わないことになっている。
というわけでそのCEVAの話だ。同社はArmと同じくDSPのIPを提供するベンダーであり、目立たないところ、例えば携帯電話の無線側の処理を行なうベースバンドチップなどには、一時期90%を超えるシェアを獲得するなど、かなり広い範囲で利用されていた。
また、ここ数年は音声向けとしてヘッドフォンなどにも広く使われるようになってきている。そうした中で同社が見つけた新たな市場がAI/ML向けだったというわけだ。
先にも出てきたがDSPはとにかく積和演算を高速に処理するのが主目的のプロセッサーであり、そしてAI/MLの中でも特に畳み込みニューラルネットワークなどは積和演算が非常に多いわけで、どう考えてもDSPで処理するのにぴったりとなる。
そこで、CEVAはまず同社の既存DSP IPの上で動作するCDNN(CEVA Deep Neural Network)というソフトウェアフレームワークを2015年に発表した。
CDNNは下の画像にあるように、まず既存のCaffe/TensorFlow/ONNX(ONNXは2018年に追加された)といったフレームワークで学習を行ってネットワークを構築する。この構築されたネットワークを、CDNNコンパイラを使って変換することで、CEVAのDSP上で動作する仕組みだ。
このCDNN、当初想定していたのはCEVAが2015年3月に発表したCEVA-XM4というDSP IPである。
4つのスカラーエンジンと2つのベクトルエンジンを持つこのDSP、スペックとしては以下の特徴を持つ。
- 最大128MAC構成で、それぞれが8-wayのVLIWになっており、最大構成だと4096bitのベクトルを処理できる。
- 内部パイプラインは14段。TSMCの28nm HPMで1.5GHz動作を保証
- メモリーアクセスは32wayのインターリーブで、それぞれ独立にアクセス可能
- 2次元メモリーアクセス(行列の転置やFFTなどで、行と列をひっくり返してアクセスする)をサポートするSliding Window/Sliding Patternをメモリーアクセスでサポート
- 8/16/32/64bitの浮動小数点と固定小数点演算をサポート。スカラーでは浮動小数点/固定小数点ともに4 MACs/サイクルだが、浮動小数点で16 MACs/サイクル、ベクトルでは128 MACs/サイクルの処理が可能
- 特殊計算(1/x、√x、1/√x)を1サイクルで処理できる
もともとCEVA-XM4は画像処理向けとして開発されたもので、当初の目的は例えば3D Vision(ステレオカメラを利用して対象物の3次元イメージを構築)や、カメラ画像の補正(超解像、デジタルズーム、輝度拡張、スタビライジング)などを目的にしていた製品だが、CDNN発表後にはこれに加えて物体認識や対象物追跡、物体分類や汎用の畳み込みニューラルネットワークなども目的に追加されることになった。
CEVA-XM4の後継として2016年に投入されたのがCEVA-XM6である。基本的にはまだVision DSPというカテゴリー向けの製品ではあるが、特に畳み込みニューラルネットワークの処理に向けて最適化を図っており、ベクトル処理でCEVA-XM4比で3倍、平均で2倍の性能改善を施し、かつ制御コードの柔軟性も50%増加したとされる。
またCEVA-XM4で動くコードはそのままCEVA-XM6でも動作するとしている。TSMCの20nmで試作された690MHzで動作するCEVA-XM6とNVIDIAのTX1でのAlexNet/GoogleNetの処理性能の比較では、CEVA-XM6の性能が4倍、性能/消費電力比が25倍になったという数字も示されている。
CDNNもCNDD2にバージョンアップされ、ワンボタンで変換が可能になったほか、対応するネットワークの数も大幅に増えた。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ














