このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第703回

音声にターゲットを絞ったSyntiant AIプロセッサーの昨今

2023年01月23日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

音声認識に特化したプロセッサーNDP100

 最初に書いたように2017年にSyntiantが創業された1年後に、最初の製品であるNDP100が発表された。

NDP100

 NDPは“Neural Decision Processor”であり、目的は“Always-On Speech & Audio Recognition Processor”である。つまり常時オンの状態で音声をチェックし、キーワード(“OK, Google”や“Hey, Siri”などの類だ)を認識すること「だけ」しかできない。

NDP100の内部構造。マイクロコントローラーとしてはCortex-M0+プロセッサーが搭載されている

 ただこの手のプロセッサーに確実にニーズがある、というのは連載665回のインテルGNAで説明したとおりだ。GNAは顔認証に向けて、映像から顔検出(顔かどうかだけを検出して、人の顔を検出したらホストを起こす)を行なうためのプロセッサーだが、こちらは特定の起動キーワードを検出してホストを起こすのが違いと言う程度である。

 この戦略はかなり賢い。というのは、それこそMythicのM1108でも、M.2カードの横幅一杯(パッケージそのものは20mm角程度に見える)の寸法であり、もちろん性能は高いのだがその分コストも高くなる。

 あとMythicはここでINT8を扱うために、2つのフラッシュメモリーセルを組み合わせて8bit精度を担保しているために、相対的にプロセッサーのサイズが大きなものになる。これに対してNDP100は本当に音声の、それもキーワード検索のみにターゲットを絞っており、そもそも演算精度をかなり落とせる。

 実際の細かな実装をSyntiantは公開していないが、2つ目の画像で3bitの数字が出てきているあたりは、内部の処理精度は3bitや4bit程度の可能性が高い。これは汎用を狙うにはいろいろ物足りないが、キーワード検出には必要十分である。

 そしてネットワークそのものもそれほど大規模である必要がない。一応NDP100の機能としては以下のことが可能とされているが、基本キーワード検出の延長である。

  • keyword speech interface(キーワード検出用トリガー)
  • wake word detection(起動ワード認識)
  • speaker identification(話者特定)
  • sensor applications(例えば侵入センサーなど向けに、窓が割れたりドアが開いたりといった音を検出する)
  • audio event and environment classification(音声と環境音の分類)

 そして小規模なネットワークを実装すれば済む結果として、稼働時の消費電力は140μW未満、寸法は以下の画像のとおりである。

比較対象は1セント硬貨(直径0.75インチ=19.05mm)である。パッケージの小ささがわかろうというもの

 価格は公開されていないが、なにしろこのサイズなのでかなりお安いことは間違いない。そして価格が安いというのは、機器への組み込みがしやすいということでもある。特に家庭向けの機器の場合、原価計算をそれこそ円単位(アメリカならセント単位)で行なうのが普通であり、よほどのことがないとコンポーネントの追加は許されない。

 ただ原価上昇に見合う性能があれば別である。今回の場合、NDP100を搭載することで、待機時の消費電力を大幅に削減できる=それだけバッテリー寿命も伸ばせるという点が大きく評価されたものと思われる。

 NDP100の場合、2018年6月に最初のサンプル製品の出荷が始まり、2019年8月には製品品質の検証が完了。同時にAmazonよりAlexaの認証を取得している。

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン