ロードマップでわかる!当世プロセッサー事情 第645回
ET-SoC-1の設計思想で納得、やっぱりEsperantoはDitzel氏の会社だった AIプロセッサーの昨今
2021年12月13日 12時00分更新
100~1000TOPSのピークレートを
1つのET-SoC-1で実現できる
ちなみにテンソル命令でどんなことができるのか? というのが下の画像だ。
最大512回というあたりだとすると、例えば2次元行列乗算なら16×16の行列(データ型8bit)同士の乗算の合計をCに出力とか、3次元テンソルなら8×8×8の行列の乗算を実行できる格好になる。従来のプロセッサーでは、このためには2次元なら最低でも(演算命令+データ移動命令)×256、3次元なら×512個が必要なので、これを1命令で済ませられることの効果は大きい。
ただ命令実行の方は自動でできるとして、問題になるのはデータのロード/セーブである。なにしろ最大だと1命令で32K演算なので、Int 8としても32KB分のロードとセーブが512サイクルごとに入ることになる。
もっと正確に言えば、レジスターファイルが512個並んでいれば512サイクルごとに入れ替えれば済むことになるが、実際にはそんな巨大なレジスターファイルを置くのはエリアサイズ的にも消費電力的にも無理である。
したがってレジスターファイルと1次データキャッシュの間で常にデータのやり取りが発生する格好になる(しかもこれはET-Minionのロード/ストアー命令ではなく、テンソル命令を発行するとロード/ストアーユニットが(RISC-Vのパイプラインとは独立に)動作して、定期的にデータのロード/セーブをSRAMとの間で行なう形になる。レジスターファイルは8組なので、例えば4組ごとにロード/セーブをするのかもしれない。
これが理想的に動作すれば、1個のET-Mineonで32FLOPs/サイクル、これが1088個同時動作で34816FLOPs/サイクルである。300MHz動作なら1044GLOPSs相当になるわけで、「100~1000TOPSのピークレート」を1個のET-SoC-1で実現できるわけだ。
デュアルM.2カードとPCIeカードに
ET-SoC-1が搭載される
なお、ET-SoC-1は、デュアルM.2カードとPCIeカードの2種類の形で提供される予定だそうだ。
さらにデータセンター向けとしては、そのGP v2カードを2つ搭載したYosemite v2 Sledや、それをさらに4つ搭載したYosemite v2 Cubby、そのCubbiyを8つ搭載したラック構成なども想定されているとする。
すでにCelebresやGraphcoreのように、サーバー向けに先行者利益を享受しているベンダーもある中で、今後Espelantoがどれだけ巻き返しを図れるのか、楽しみである。
この連載の記事
-
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ