ロードマップでわかる!当世プロセッサー事情 第667回
HPですら実現できなかったメモリスタをあっさり実用化したベンチャー企業TetraMem AIプロセッサーの昨今
2022年05月16日 12時00分更新
MAC演算を高速化するだけでAI処理が可能
ではメモリスタを使ってどうAI処理を行なうか? であるが、理屈は簡単である。そもそもAI処理の大半はMAC(Multiply-Accumulation)演算というのはこれまでも何度か説明した通り。畳み込みのほとんどがMAC演算なので、これを高速化するだけで大幅に性能が上がる。
![](/img/2022/05/15/3361609/l/38e1cc0edd799745.jpg)
理屈で言えばDAC(Digital Analog Converter)でデジタル信号を、これに比例したアナログ電圧に変換。計算処理後にADC(Analog Digital Converter)経由でデジタル信号に戻すだけだが、やはりここで多少誤差が出るのは避けられないので、エラー補正回路などは必要になる
そしてMAC演算というのは要するにY=A×X+Bである。ここでAが係数(畳み込みニューラルネットワークならウエイトにあたる)、Bがオフセットである。ところでこのAだが、メモリスタはセル1つで11bit分(2048段階)の記憶レベルを持つ。なので、ウエイトの値をメモリスタに記憶しておけば良い。
メモリスタは先に書いたように「流れる電流に応じて抵抗値が変わる」ので、逆に記憶を固定しておけば「一定の電圧をかけた際に流れる電流が、その記憶の値によって決まる」ことになる。したがって、X(つまり入力値)に比例した電圧Eをかけた場合、流れる電流値はオームの法則により以下のように計算する。
I=E÷R(R:メモリスタの抵抗値)
ここでRの値を1÷ウエイトとなるように設定すれば、以下のようになる。
I=E×ウエイト
Eが入力値であればこれで自動的にMAC演算の前半の乗算が完了する。あとはBの分のオフセットを足してやれば、MAC演算が完了するというわけだ。
この仕組みは、MythicのNANDフラッシュを使った場合とまったく同じである。異なるのは、Mythicの場合は8bit分の記憶を1つのNANDフラッシュセルでは保持しきれずに2セルを使っていたが、TetraMemではこれを1つのメモリスタセルで実現している。
![](/img/2022/05/15/3361610/l/4d0a51da8c832e21.jpg)
構成模式図。構図自体はMythicのものと非常に近いというか、原理そのものは同じなので当然同様のクロスバー構造になる
TetraMemはまず2019年に小規模なサンプルチップを製造。2020年にはやや大型化、2021年には大規模化したうえ、制御用のRISC-Vコアなどを搭載して、いよいよAIプロセッサーらしくなった。
![](/img/2022/05/15/3361611/l/639f879ca7a3242a.jpg)
理論上は11bit/セルであっても、実装するとなるとDAC/ADCの解像度などと合わせて難しいものがあったので、まずは比較的テストしやすい6bit/セルからスタート、2021年のものは広く利用されている8bitニューラルネットワークにあわせて8bit/セルでの試作となったのだろう
クロスバーそのものは256×256の規模なので、64K演算が1サイクルで可能になるが、システムではこのクロスバーを複数個搭載するような構成だとする。
すでに65nmプロセスを利用したテストチップで400MHzまでの動作は確認しており、実測値で最大25TOPS/Wが確認できたとしている。
![](/img/2022/05/15/3361613/l/c2a46bcbfee0d4ea.jpg)
右下のテーブルは、今年のISSCCで発表された他のIn-Memory Computingでの結果をまとめたもので、40nmフラッシュを使ったもので5.2TOPS/W、28nm SRAMで27.3TOPS/W、4nmの試作チップで11.59TOPS/Wとされる
現状はまだ65nmという古いプロセスを使ってこの成果であり、今後22nm(TSMCの22ULPあたりだろうか?)を使えば60TOPS/W、14nm(SamsungないしGFの14LPPあたりか?)を使えば100TOPS/Wが狙える、というのがTetraMemの説明である。
問題はこうした先端プロセス上でメモリスタをどう構築するか? というあたりであるが、そのあたりは特許との絡みもあってか今回は説明されなかった。ただHPですら実現しきれなかったメモリスタをあっさりベンチャー企業が採用して、しかも高性能なAIプロセッサーを実現できそう、というのはなかなか興味深い取り組みであると言える。
![](/img/blank.gif)
この連載の記事
-
第775回
PC
安定した転送速度を確保できたSCSI 消え去ったI/F史 -
第774回
PC
日本の半導体メーカーが開発協力に名乗りを上げた次世代Esperanto ET-SoC AIプロセッサーの昨今 -
第773回
PC
Sound Blasterが普及に大きく貢献したGame Port 消え去ったI/F史 -
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ - この連載の一覧へ