ロードマップでわかる!当世プロセッサー事情 第645回
ET-SoC-1の設計思想で納得、やっぱりEsperantoはDitzel氏の会社だった AIプロセッサーの昨今
2021年12月13日 12時00分更新
100~1000TOPSのピークレートを
1つのET-SoC-1で実現できる
ちなみにテンソル命令でどんなことができるのか? というのが下の画像だ。
最大512回というあたりだとすると、例えば2次元行列乗算なら16×16の行列(データ型8bit)同士の乗算の合計をCに出力とか、3次元テンソルなら8×8×8の行列の乗算を実行できる格好になる。従来のプロセッサーでは、このためには2次元なら最低でも(演算命令+データ移動命令)×256、3次元なら×512個が必要なので、これを1命令で済ませられることの効果は大きい。
ただ命令実行の方は自動でできるとして、問題になるのはデータのロード/セーブである。なにしろ最大だと1命令で32K演算なので、Int 8としても32KB分のロードとセーブが512サイクルごとに入ることになる。
もっと正確に言えば、レジスターファイルが512個並んでいれば512サイクルごとに入れ替えれば済むことになるが、実際にはそんな巨大なレジスターファイルを置くのはエリアサイズ的にも消費電力的にも無理である。
したがってレジスターファイルと1次データキャッシュの間で常にデータのやり取りが発生する格好になる(しかもこれはET-Minionのロード/ストアー命令ではなく、テンソル命令を発行するとロード/ストアーユニットが(RISC-Vのパイプラインとは独立に)動作して、定期的にデータのロード/セーブをSRAMとの間で行なう形になる。レジスターファイルは8組なので、例えば4組ごとにロード/セーブをするのかもしれない。
これが理想的に動作すれば、1個のET-Mineonで32FLOPs/サイクル、これが1088個同時動作で34816FLOPs/サイクルである。300MHz動作なら1044GLOPSs相当になるわけで、「100~1000TOPSのピークレート」を1個のET-SoC-1で実現できるわけだ。
デュアルM.2カードとPCIeカードに
ET-SoC-1が搭載される
なお、ET-SoC-1は、デュアルM.2カードとPCIeカードの2種類の形で提供される予定だそうだ。
さらにデータセンター向けとしては、そのGP v2カードを2つ搭載したYosemite v2 Sledや、それをさらに4つ搭載したYosemite v2 Cubby、そのCubbiyを8つ搭載したラック構成なども想定されているとする。
すでにCelebresやGraphcoreのように、サーバー向けに先行者利益を享受しているベンダーもある中で、今後Espelantoがどれだけ巻き返しを図れるのか、楽しみである。
この連載の記事
-
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 - この連載の一覧へ