ロードマップでわかる!当世プロセッサー事情 第667回
HPですら実現できなかったメモリスタをあっさり実用化したベンチャー企業TetraMem AIプロセッサーの昨今
2022年05月16日 12時00分更新
MAC演算を高速化するだけでAI処理が可能
ではメモリスタを使ってどうAI処理を行なうか? であるが、理屈は簡単である。そもそもAI処理の大半はMAC(Multiply-Accumulation)演算というのはこれまでも何度か説明した通り。畳み込みのほとんどがMAC演算なので、これを高速化するだけで大幅に性能が上がる。
理屈で言えばDAC(Digital Analog Converter)でデジタル信号を、これに比例したアナログ電圧に変換。計算処理後にADC(Analog Digital Converter)経由でデジタル信号に戻すだけだが、やはりここで多少誤差が出るのは避けられないので、エラー補正回路などは必要になる
そしてMAC演算というのは要するにY=A×X+Bである。ここでAが係数(畳み込みニューラルネットワークならウエイトにあたる)、Bがオフセットである。ところでこのAだが、メモリスタはセル1つで11bit分(2048段階)の記憶レベルを持つ。なので、ウエイトの値をメモリスタに記憶しておけば良い。
メモリスタは先に書いたように「流れる電流に応じて抵抗値が変わる」ので、逆に記憶を固定しておけば「一定の電圧をかけた際に流れる電流が、その記憶の値によって決まる」ことになる。したがって、X(つまり入力値)に比例した電圧Eをかけた場合、流れる電流値はオームの法則により以下のように計算する。
I=E÷R(R:メモリスタの抵抗値)
ここでRの値を1÷ウエイトとなるように設定すれば、以下のようになる。
I=E×ウエイト
Eが入力値であればこれで自動的にMAC演算の前半の乗算が完了する。あとはBの分のオフセットを足してやれば、MAC演算が完了するというわけだ。
この仕組みは、MythicのNANDフラッシュを使った場合とまったく同じである。異なるのは、Mythicの場合は8bit分の記憶を1つのNANDフラッシュセルでは保持しきれずに2セルを使っていたが、TetraMemではこれを1つのメモリスタセルで実現している。
構成模式図。構図自体はMythicのものと非常に近いというか、原理そのものは同じなので当然同様のクロスバー構造になる
TetraMemはまず2019年に小規模なサンプルチップを製造。2020年にはやや大型化、2021年には大規模化したうえ、制御用のRISC-Vコアなどを搭載して、いよいよAIプロセッサーらしくなった。
理論上は11bit/セルであっても、実装するとなるとDAC/ADCの解像度などと合わせて難しいものがあったので、まずは比較的テストしやすい6bit/セルからスタート、2021年のものは広く利用されている8bitニューラルネットワークにあわせて8bit/セルでの試作となったのだろう
クロスバーそのものは256×256の規模なので、64K演算が1サイクルで可能になるが、システムではこのクロスバーを複数個搭載するような構成だとする。
すでに65nmプロセスを利用したテストチップで400MHzまでの動作は確認しており、実測値で最大25TOPS/Wが確認できたとしている。
右下のテーブルは、今年のISSCCで発表された他のIn-Memory Computingでの結果をまとめたもので、40nmフラッシュを使ったもので5.2TOPS/W、28nm SRAMで27.3TOPS/W、4nmの試作チップで11.59TOPS/Wとされる
現状はまだ65nmという古いプロセスを使ってこの成果であり、今後22nm(TSMCの22ULPあたりだろうか?)を使えば60TOPS/W、14nm(SamsungないしGFの14LPPあたりか?)を使えば100TOPS/Wが狙える、というのがTetraMemの説明である。
問題はこうした先端プロセス上でメモリスタをどう構築するか? というあたりであるが、そのあたりは特許との絡みもあってか今回は説明されなかった。ただHPですら実現しきれなかったメモリスタをあっさりベンチャー企業が採用して、しかも高性能なAIプロセッサーを実現できそう、というのはなかなか興味深い取り組みであると言える。

この連載の記事
-
第862回
PC
「ビル100階建て相当」の超難工事! DRAM微細化が限界を超え前人未到の垂直化へ突入 -
第861回
PC
INT4量子化+高度な電圧管理で消費電力60%削減かつ90%性能アップ! Snapdragon X2 Eliteの最先端技術を解説 -
第860回
PC
NVIDIAのVeraとRubinはPCIe Gen6対応、176スレッドの新アーキテクチャー搭載! 最高クラスの性能でAI開発を革新 -
第859回
デジタル
組み込み向けのAMD Ryzen AI Embedded P100シリーズはZen 5を最大6コア搭載で、最大50TOPSのNPU性能を実現 -
第858回
デジタル
CES 2026で実機を披露! AMDが発表した最先端AIラックHeliosの最新仕様を独自解説 -
第857回
PC
FinFETを超えるGAA構造の威力! Samsung推進のMBCFETが実現する高性能チップの未来 -
第856回
PC
Rubin Ultra搭載Kyber Rackが放つ100PFlops級ハイスペック性能と3600GB/s超NVLink接続の秘密を解析 -
第855回
PC
配線太さがジュース缶並み!? 800V DC供給で電力損失7~10%削減を可能にする次世代データセンターラック技術 -
第854回
PC
巨大ラジエーターで熱管理! NVIDIA GB200/300搭載NVL72ラックがもたらす次世代AIインフラの全貌 -
第853回
PC
7つのカメラと高度な6DOF・Depthセンサー搭載、Meta Orionが切り開く没入感抜群の新ARスマートグラス技術 -
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 - この連載の一覧へ












