今回お届けするのはSyntiantである。Syntiantは2017年に創業しているが、2018年には早くも最初のプロセッサーシリコンを出荷開始しており、出荷開始後1年半で100万個、2021年1月の時点では1000万個の製品出荷を達成している。
Syntiantの創業者はJeremy Holleman博士(現Chief Scientist)、Kurt Busch氏(現CEO)、Pieter Vorenkamp氏(現COO)とSteph Bailey博士(現CTO)の4人。
このうちVorenkamp氏とBailey博士は2006~2016年の間Broadcomに在籍(Vorenkamp氏はSVP, Operations Engineering/Operations & Central Engineering、Bailey博士はSenior Technical Director)だったのでまだつながりがありそうなのはわかるが、Busch氏はDECやインテル、ADI、Mindspeedなどいくつかの半導体企業を渡り歩いた後で、2015年まではIoT機器を手掛けるLantronixのCEOを務め、その後自身で興したBusch Toschi, LLCというテクノロジー企業向けビジネスサポートの会社を経営していた。
もっと関りがわからないのがHolleman博士で、Syntiant参画前はノースカロライナ大の准教授である。もっともそのHolleman博士は超低消費電力な回路のエキスパートでもあり、実はSyntiantのコアテクノロジーはHolleman博士によるところが多そうにも見える。
Busch氏はテクノロジー企業の経営エキスパートという立場であり、Vorenkamp氏とBailey博士がビジネスの種を思いつき、Holleman博士を引き込んでテクノロジーを確立。そこでBusch氏に相談を持ちかけて起業、というあたりがありそうなパターンに見えるが、そのあたりの詳細はまだ定かではない。
NORフラッシュを使いアナログベースのMACエンジンを構築
さてそのSyntiantのコアテクノロジーであるが、実は理屈は連載591回で紹介したMythicのものに良く似ている。マトリックス配置にしたフローティング・メモリー・セルに、あらかじめウエイトを保持しておく。その状態で入力された値をDAC(Digital Analog Converter)経由で、入力した値に比例する電圧の形でかけてやると、フラッシュに保持されたウエイトに比例する形での電流が流れる。これをまとめて測定することでMAC演算ができるという仕組みだ。
このマトリックスになったフラッシュメモリーというのは、実はNORフラッシュそのものである。NANDフラッシュとNORフラッシュの違いは連載259回で説明したが、要するにBit Line(上の画像で言うなら縦方向の配線)がセルごとに用意されているのがNOR、複数のセルをまとめて1つのBit Lineで済ませているのがNANDである。
NORはこの結果としてbit単位でフラッシュメモリーのセルにアクセスできるのに対し、NANDはブロック(これは製品によるが、KB~数十KB単位)でのアクセスしかできない。もちろんその分配線が減るので、フラッシュメモリーのセルを高密度に実装でき、結果として容量増大につながっているわけだが。
話を戻すと、Syntiantは要するに普通のNORフラッシュを使い、Bit Lineに電流検知回路を組み込むことで、Mythicと同じようにアナログベースのMACエンジンを構築したわけだ。
さて、この方式が回路構成的に有利なのはMythicの例でも明らかなのであるが、もちろん欠点というか問題がある。それは主に精度である。まず解像度とSN比の関係だ。
当たり前ではあるのだが、精度を高くとろうとすると、フラッシュメモリーセルにかける電圧(上の画像で言えば、左側からDACを経由してかかる電圧)を高くした方が良い。その一方で、電圧を上げると当然消費電力も増える。したがって、どの程度の精度が必要かをきちんと見極める必要がある、という話である。
Syntiantの試算では、8bit精度を保つ場合は1回の演算(というのが正確かわからないが、フラッシュメモリーセルに電圧をかける処理)の際の消費電力は20fJ程度と試算されるのに対し、3bit精度まで落とすと20aJ(=0.02fJ)と1000分の1に削減できるとする。
次が出力のADCの解像度である。ADCはDACの逆で、電圧を検出してこれをデジタル値で出力する。電流量の検出なのに電圧検知なのか? と思われるかもしれないが、電圧を直接検知するのは難しい。ホールセンサーなどもあるが、あれも実は中でホール素子と呼ばれるものを利用して電流に比例した電圧を検出しているのでやはりADCが使われる。
そこで電流から電圧を検出し(これはオームの法則で簡単に実装できる)、その結果をADCで取り込むことで結果的に電流値を検出するわけだが、当然だが0.1Vを8bit(=256段階)に区別するより1Vや10Vを区別する方が容易で、誤差も入り難い。したがって、電圧を上げた方が効果的ではあるのだが、これはそのまま消費電力増に直結する。
ここでまた精度と消費電力のバーターになるわけだが、ちょっとした抜け道がある。このADCで検出するのは、畳み込み演算の最後の部分、つまり加算を行なう部分にあたる。加算するフラッシュメモリーセルの数が多くなればなるほど、合計の電流量(=ADCで検出する電圧)も大きくなることが期待できる。
つまり同時に多数のフラッシュメモリーセルを加算する構成にすれば、電圧をそれほど上げなくても合計の電流量が増え、結果的に精度をそれほど落とさずに消費電力を抑えられる。
他にも懸念事項がないわけではないが、それは既存の技術で対応が可能である、というのが発表内容であり、今回は省くが、実際に温度との相関やウエイトと精度の相関、消費電力とダイナミックレンジの相関などを実際に示しながら現実的に製品が製造可能であることをアピールしていた。
この連載の記事
-
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 - この連載の一覧へ