ディープラーニングに振り切ったAiMの内部構造
内部構造であるが、16個のDRAMバンクに16個のPU(Processing Unit)が分散される形で実装され、それとは別に2KBのグローバル・バッファが中央に置かれる格好になっている。
そのPUであるが、最大16個のデータのMAC演算が可能である。データ型はBF16なので、DRAMバンクから256bit分のデータを一気に読み出し、これをそのまままず乗算を行ない、その結果を加算して、最終的にアクティベーションするところまでを完全にパイプライン化している。
ところで前回も書いたが、MAC演算とはY=A×X+Bという処理になる。ここでXが入力値、Aがウエイト、Bがオフセットで処理結果がYである。ウエイトにあたるA(と必要ならオフセットのB)はDRAMから取ってくるわけだが、入力にあたるXをどこから持ってくるのか? というと、パターンが2つある。
1つはグローバル・バッファを利用する方法である。もう1つは複数のバンクからそれぞれデータを取る方法だ。大きな入力に対して、単一のウエイトを適用するようなシーンではこちらが利用できることになる。
それぞれのPUで行なえる処理が下の画像だ。そのバンクを有効にする/しない、MAC演算、活性化、乗算のみ(MAC演算はしない)といった処理命令と、後はデータの移動に関わるものだけである。
DRAMセル混在ということもあり、あまり複雑な命令はサポートしていないし、BF16というデータフォーマットの時点で科学技術計算などにはかなり厳しい(なにしろ仮数部が7bitしかないから、実質2桁精度)わけで、もう完全にディープラーニングに振り切った構成になっているのはいっそ潔いというべきか。
MAC演算の基本的な仕組みが下の画像である。16個の乗算器の出力(ここに一応出力制御とShifterが入っている)を、15個の乗算器でツリー状に加算していく形態である。
ちなみにこの加算器のツリーは4層になっている関係で、普通に処理をすると加算に4サイクルかかる計算である。乗算まで加えると5サイクルで実施できることになる。
これをもう少し高速化したい、ということでSK Hynixが提案しているのはBWMS(Bank-Wide MA Shift)である。整数の加算であれば話は簡単なのだが、BF16の場合は浮動小数点なので、指数部(Exponent)と仮数部(Mantissa)を別々に扱う必要がある。
例えば100+10、という計算は整数型なら計算一発である。ところが浮動小数点だとそれぞれ1.0×102+1.0×101、と表現されることになる。したがって、まず最初に指数部の桁をそろえる必要があり、10.0×101+1.0×101か、1.0×102+0.1×102と変換(どちらにするかは処理系の実装次第)してから加算する必要がある。
これをツリー上の加算で毎回やってるから処理が増えることになる。そこで、1バンク16個分のデータについて、最初に指数部を統一してしまえば、あとは符号付7bitの加算だけで済むので、処理時間を大幅に減らせる、というものだ。これは単に性能だけでなく消費電力やエリアサイズの削減にもつながる、としている。
ちなみにPUに対する処理は、CMD/ADDラインを使って送る形で実装されているようで、このあたりはHBM-PIMと発想は同じである。
いまさら信号線を増やすわけにもいかないし、そもそもこの方式の場合はまずDRAMセルにデータを埋め(これは通常のデータ書き込み)、ついでPUに対して処理を行ない(ここが拡張部分)、最後に結果を受け取る(これは通常のデータ読み込み)という形になるから、PUの制御I/Fを別に用意するよりも、既存のCMD/ADD経由の命令を拡張する方が賢明だろう。
この連載の記事
-
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ