INT4やINT1をサポートする
プロセッサーが普及していく
一方整数演算についても、当初はINT32などを使っていたのがすぐINT8に切り替わったが、より積極的にINT4/INT2/INT1なども研究されるようになった。これの先鞭をつけたのはFPGAである。
CPUやGPUの場合、8bit演算が最小単位になっているため、これ未満の単位でも動作としては8bit演算になる。したがって4bitにしてもまったく性能向上に寄与しないのだが、FPGAの場合は4bit演算器や2bit演算器を作りこむことが可能で、その場合は本当に回路規模が小さくなる=同時に処理できるデータ量が多くなるので、性能が向上するというメリットが大きくなる。
これを極端に進めたのがBinary、つまりデータ型が1bitのネットワークである。もちろん1bitなのはデータのみで、フィルターの係数はINT8などになるのだが、こちらは圧倒的に計算量が減らせる。
なぜなら、畳み込み演算などで乗算を全部論理積(And)に置き換えできるからだ。前回、Ampereのアーキテクチャー説明の中でSparsity(疎行列への対応)を説明したが、理屈はアレと同じである。
下図の左側は、連載562回で説明した畳み込みの計算であるが、Binaryの場合は入力画像(A1~A9)が0か1しかないので、事実上掛け算の必要が一切なく、単にB1~B9に論理積を行なってから足し算をするだけで良い。
この論理積のロジックは乗算のロジックよりもずっと簡単に実装できるので、単にデータの格納に必要なメモリーが減るだけでなく、演算ロジックそのものも大幅に簡素化できるから、同時により多数のデータを並列で処理しやすくなり、そのまま性能向上につながる。
8bit未満(4bit/2bit/1bit)に関してはこれまでFPGAの独壇場だったが、NVIDIAがAmpereでINT4/INT1をサポートしたというのは、こうしたトレンドに対応するためと考えられる。
CPU側に関しては今のところこれをサポートする動きはないが、長期的にはSIMD拡張の中でINT4やINT1をサポートする可能性はあるだろう。
またAI向けプロセッサーの中には、このINT4/INT1をオプションでサポートする製品も出てき始めており、今後は広範に普及していくかもしれない。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ












