性能ではなく効率を上げる方向に舵を切ったTensilica AI Platform　AIプロセッサーの昨今

2023年05月29日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

AI向けに最適化したDNA Scalable Processor

　ということで話をAIプロセッサーに移す。AI市場の盛り上がりに合わせて、当然TensilicaもAI向けの対応を始める。といっても当初畳み込みニューラルネットワークが映像処理(セグメンテーションやクラシフィケーションなど)で立ち上がったこともあり、まずは同社のVision Q6という映像処理向けのDSP上でニューラルネットワークを稼働させるためのフレームワークを提供するに留まっている。

これは2018年のLinley Spring Processor Conferenceにおけるスライド。この時の発表のメインは13段のパイプライン構造を持つVision Q6 DSPであり、そのうえで新たに用意されたXtensa Neural Network Compilerを利用することで既存のニューラルネットワークを稼働させられる、というもの

　2019年にはTensilica DNA 100 Processor(数百個のDSPコアをSoC内に搭載できるというコンセプトのもの)を発表しているが、DSPコアそのものは従来のままで、まだAIに最適化されたというものではなかった。このあたりのソリューションが用意できたのは2020年である。

　DNA Scalable Processorと呼ばれる新IPは、DSPをベースとしつつもAI向けに最適化した構造を取るものである。

このころのTensilica AIは最大2048MACユニットまで拡張することを想定していた

　中核になるのはXNNE(Xtensa Neural Network Engine)で、MACユニットそのものはVision DSPなどと似ている(完全に同じではなく、AI向けのデータ型のサポートなどが追加されている)が、これにSparsityへの対応を行ったScalable Sparse Compute Engineや、量子化専用ユニットの追加(DSPでも同じことはできるが、それだけ演算性能を食うことになるので、専用ユニットにすることで効率を上げている)などを実装したものだ。

Vision P6 DSPと密結合してるとは言うものの、「将来の拡張用」「プレ/ポストプロセス」などで、AI処理はXNNEの方でほぼ完結することになる

　基本はDSPをブン回して性能を上げるという方向での実装であり、データフローの実装やIn-Memory Computing的な実装は同社の得意とするところではない。

　ただScalable Sparse Compute Engineでデータが疎の部分の演算は自動的にパスできるからデータフローに近い効率を実現できるし、Unified BufferをMACユニットに近いところに置くことで、外部のメモリーアクセスの頻度を減らすことで本当のIn-Memory Computingに比べればまだ帯域的には低いであろうものの、かなり効率的に演算を実施できるように配慮したことがうかがえる。

　性能としては、この時点でもNVIDIAのXavierと比較して2.4倍の効率を達成したとしており、手始めとしては悪くない数字である。

比較はMobilenet V1での結果とのこと。それはいいが、比較がTOPSあたりのフレームレート、というなかなか普段見ない数字なので判断が難しい

　もっとも、「既に販売しているプロセッサー」に比べて、IPで提供されるプロセッサーの効率が数倍では商売にならない。そのIPを購入して新しいチップを自分で作るとなると数年の期間が必要であり、その間により性能を上げたプロセッサーが市販されるであろうことは明白だからだ。

　ただTensilicaはここで性能を上げる方向ではなく、効率を上げる方向に舵を切った。2021年に発表されたのが、現在も提供されるNNA110である。

このスライドには“NNE110”とあるが、現在はNNA110という名称で提供されている

　構成そのものはNNEそのものであるが、MAC数は32～128と、3つ前の画像で示した256～2048から大幅減となっており、またPooling/Vector Processing Unitが省かれているのがわかる。PoolingはおそらくTensilica DSPの側で処理であり、またVector Processing Unitはその必要がないと判断されたためだろう。

　どうしてか？　というと、TensilicaはAIの用途を“Always On Processing”向けに割り切ったためだ。

つまり、AIの用途をインテルのGNAやPerceiveのERGOなどと同じ利用法に向けたものである

　同社はすでにVision DSPやAudio DSPを幅広く展開して供給しており、それこそ画面付きのスマートスピーカーなどに広範に採用されている。こうしたすでにあるアプリケーションに、今回のNNA110を追加するだけで、性能を向上させつつ大幅に消費電力を減らせる)というわけだ。

これはノイズ削減の機能を、HiFi 5 DSP単体で実現した場合とNNA100を併用した場合の比較。ちなみにレイテンシーも3.7倍の削減になった、としている

　ユーザーとしても、すでにTensilicaのIPを使ってアプリケーションを構築しているのであれば、そこにNNA110を追加するのはそう難しくない。いわば抱き合わせ商法を狙って展開されているのがNNA110というわけだ。Tensilicaのユーザーは多いので、そうしたユーザーを狙っての商売だけに、確実に市場が狙えそうではある。なかなか賢いビジネスだと思う。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ

性能ではなく効率を上げる方向に舵を切ったTensilica AI Platform AIプロセッサーの昨今

AI向けに最適化したDNA Scalable Processor

この連載の記事

この記事の編集者は以下の記事をオススメしています

PC 要求にあわせて構成を変更できるSynopsysのARCシリーズ AIプロセッサーの昨今

PC ロードマップでわかる！当世プロセッサー事情（目次）

注目ニュース

ピックアップ

アスキーストア's 人気ランキング ベスト5

性能ではなく効率を上げる方向に舵を切ったTensilica AI Platform　AIプロセッサーの昨今

PC
要求にあわせて構成を変更できるSynopsysのARCシリーズ　AIプロセッサーの昨今

PC
ロードマップでわかる！当世プロセッサー事情（目次）

アスキーストア's 人気ランキングベスト5