ロードマップでわかる!当世プロセッサー事情 第685回
メモリーと演算ユニットをほぼ一体化したUntether AIのrunAI200とBoqueria AIプロセッサーの昨今
2022年09月19日 12時00分更新
Untether AIはもうすっかり取り上げていたつもりだったので、まだだったことに少し焦っている。Untether AIは2018年にトロントで創業されたスタートアップ企業である。
創業者はMartin Snelgrove博士(初代CEO、現在はCTO)とDarrick Wiebe氏(もともとはソフトウェアの設計者だが、現在のポジションはHead of Technical Marketing)、Raymond Chik博士(現在はコンサルタントだが、一時期はVP, Engineeringも兼業していた。本業(?)は起業家兼エンジェル)の3人である。スタートアップといってももう総額で1億5200万ドルの投資を受けており、この業界(?)では結構な老舗だったりする。
同社が最初の製品であるrunAI200を発表したのはLinley Fall Processor Conference 2020の最終日(10月29日)である。アーキテクチャーはNear-Memory Computingである。Near-Memoryというのは一応メモリーと演算素子は別々に実装されるが、ただし物理的には極めて近い位置にあることを指す。
アーキテクチャーをNear-Memory Computingにした動機が下の画像だ。要するに従来型のアーキテクチャーでは、消費電力の大半がデータの移動に費やされるためだ。
これをカバーするために大量のキャッシュを搭載したり、あるいはインテルの“An 8-core RISC-V Processor with Compute near Last Level Cache in Intel 4 CMOS”のように、LLC(Last Level Cache)の中に演算ユニットをブッこんでみたりといろいろ工夫をするわけだが、Untether AIは素直にSRAMと演算ユニット(PE:Processing Element)を密に配置するという、ある意味素直な実装になった。
その最初の製品がrunAI200である。素直な実装にした理由はやはりプロセス周りで冒険する必要がなかったことにつきる。TSMCの16nmで、普通にロジックICとして製造しながら8TOPS/Wを実現するとなると、こうした工夫は欠かせないことになる。
そのrunAI200の内部構造が下の画像だ。511個SRAMベースのメモリーバンクが内蔵され、個々のメモリーバンクの中にPEが512個(!)搭載される格好になる。
メモリーバンク間はRow方向とColumn方向で別々にインターコネクトが配されており、それとは別にPCIeコントローラーにつながるバスが別途用意されるという、なかなか複雑な構成だ。
個々のPEはメモリーからデータを読み取る格好だが、個々の活性化の閾値(Activation)はA Regから取り込むことになる。このA Regは、Row方向のインターコネクトからデータを取り込む格好だ。
この結果として、1bit分の演算の消費電力は、従来型と比較して6分の1に削減できたとする。
511個あるメモリーバンクの中身が下の画像だ。376BytesのSRAMアレイ2つに1つのPEが挟まれている格好だ。このアレイ×2+PEが横に64個、縦に8個並んで合計512個という計算になる。SRAMの総容量はバンクあたり376KBになる計算だ。

右上には“385KB pitch-matched to PEs”とあるが、これは376×2×512=385024Bytesになる(つまり1KB=1000Bytes換算)という話で、1KB=1024Bytes換算なら376KBになる
理屈はわかるが、個々のSRAMアレイ、幅4Bytesなのは32bitデータの格納を意識したものだろうが、縦方向94個というのはどこから出てきたのか興味あるところだ。Processing Elementは全体で連動する形で64×8の2D SIMD演算が可能らしい。このPEの制御などは、左端のRISC Processorで行なうようになっている。
そのRISC Processorの詳細が下の画像だ。一応汎用プロセッサーとしての体は成しており、演算もオフロード可能であるが、最大の目的はPEの制御であって、またPEの結果を加算するRow ALUも搭載されているというやや独特のものである。
ちなみにPE自身の説明はないが、これだけバラまけるということはそれほど複雑な実装にはなっていないはずで、おそらく畳み込み演算に特化した形と思われる。一応データ型はFP32とINT8の両対応となっている。

この連載の記事
-
第749回
デジタル
生成AI向けGPU「Instinct MI300X」はNVIDIAと十分競合できる性能 AMD GPUロードマップ -
第748回
PC
早いペースで新コアIPを発表してRISC-Vを広めたSiFive RISC-Vプロセッサー遍歴 -
第747回
PC
コロナ禍の裏で中国で爆発的に増えたRISC-Vコアの出荷数 RISC-Vプロセッサー遍歴 -
第746回
PC
TOP500の1位に惨敗したスパコンAuroraの真の性能 インテル CPUロードマップ -
第745回
PC
ソフトウェアの壁が独立系プロセッサーIPベンダーを困らせる RISC-Vプロセッサー遍歴 -
第744回
PC
41社でRISC-V財団を創立 RISC-Vプロセッサー遍歴 -
第743回
PC
RISC-Vの仕様策定からSiFiveの創業までAsanovic教授の足跡をたどる RISC-Vプロセッサー遍歴 -
第742回
デジタル
Ryzen Threadripper 7000シリーズのターゲットはAMDの熱狂的なファン AMD CPUロードマップ -
第741回
PC
Meteor LakeのGPU性能はRaptor Lakeの2倍 インテル CPUロードマップ -
第740回
PC
Meteor LakeのNPU性能はGPUの7割程度だが消費電力が圧倒的に少ない インテル CPUロードマップ -
第739回
PC
Meteor Lakeで省電力なのはSoCタイルのEコアのみ インテル CPUロードマップ - この連載の一覧へ