ディープラーニングに振り切ったAiMの内部構造
内部構造であるが、16個のDRAMバンクに16個のPU(Processing Unit)が分散される形で実装され、それとは別に2KBのグローバル・バッファが中央に置かれる格好になっている。
そのPUであるが、最大16個のデータのMAC演算が可能である。データ型はBF16なので、DRAMバンクから256bit分のデータを一気に読み出し、これをそのまままず乗算を行ない、その結果を加算して、最終的にアクティベーションするところまでを完全にパイプライン化している。
ところで前回も書いたが、MAC演算とはY=A×X+Bという処理になる。ここでXが入力値、Aがウエイト、Bがオフセットで処理結果がYである。ウエイトにあたるA(と必要ならオフセットのB)はDRAMから取ってくるわけだが、入力にあたるXをどこから持ってくるのか? というと、パターンが2つある。
1つはグローバル・バッファを利用する方法である。もう1つは複数のバンクからそれぞれデータを取る方法だ。大きな入力に対して、単一のウエイトを適用するようなシーンではこちらが利用できることになる。
それぞれのPUで行なえる処理が下の画像だ。そのバンクを有効にする/しない、MAC演算、活性化、乗算のみ(MAC演算はしない)といった処理命令と、後はデータの移動に関わるものだけである。
DRAMセル混在ということもあり、あまり複雑な命令はサポートしていないし、BF16というデータフォーマットの時点で科学技術計算などにはかなり厳しい(なにしろ仮数部が7bitしかないから、実質2桁精度)わけで、もう完全にディープラーニングに振り切った構成になっているのはいっそ潔いというべきか。
MAC演算の基本的な仕組みが下の画像である。16個の乗算器の出力(ここに一応出力制御とShifterが入っている)を、15個の乗算器でツリー状に加算していく形態である。
ちなみにこの加算器のツリーは4層になっている関係で、普通に処理をすると加算に4サイクルかかる計算である。乗算まで加えると5サイクルで実施できることになる。
これをもう少し高速化したい、ということでSK Hynixが提案しているのはBWMS(Bank-Wide MA Shift)である。整数の加算であれば話は簡単なのだが、BF16の場合は浮動小数点なので、指数部(Exponent)と仮数部(Mantissa)を別々に扱う必要がある。
例えば100+10、という計算は整数型なら計算一発である。ところが浮動小数点だとそれぞれ1.0×102+1.0×101、と表現されることになる。したがって、まず最初に指数部の桁をそろえる必要があり、10.0×101+1.0×101か、1.0×102+0.1×102と変換(どちらにするかは処理系の実装次第)してから加算する必要がある。
これをツリー上の加算で毎回やってるから処理が増えることになる。そこで、1バンク16個分のデータについて、最初に指数部を統一してしまえば、あとは符号付7bitの加算だけで済むので、処理時間を大幅に減らせる、というものだ。これは単に性能だけでなく消費電力やエリアサイズの削減にもつながる、としている。
加算の高速化により、CMD/ADD(コマンド/アドレス)と同じタイミングで処理が可能になる、としている。もともとGDDR6の場合、CMD/ADDはデータ転送レートの1/4の速度で伝送されており、これにあわせて結果を出力できるようになるわけだ
ちなみにPUに対する処理は、CMD/ADDラインを使って送る形で実装されているようで、このあたりはHBM-PIMと発想は同じである。
いまさら信号線を増やすわけにもいかないし、そもそもこの方式の場合はまずDRAMセルにデータを埋め(これは通常のデータ書き込み)、ついでPUに対して処理を行ない(ここが拡張部分)、最後に結果を受け取る(これは通常のデータ読み込み)という形になるから、PUの制御I/Fを別に用意するよりも、既存のCMD/ADD経由の命令を拡張する方が賢明だろう。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ


















