120のTensixコアを搭載するGrayskullは
他社を圧倒するアプリケーション性能
Tenstorrentは2019年に、小規模(6 Tensix)なJawbridgeを製造する。これはあくまでもテスト向けという感じである。ここである程度うまくいったと判断されたのだろう。2020年に製造されたのがGrayskullである。こちらはGlobalfoundriesの12LPで製造され、12×10で120のTensixコアを搭載する構成である。
Glayskullのスペック、MicroProcessor Reportによれば以下のように発表されている。
Glayskullのスペック | ||||||
---|---|---|---|---|---|---|
コア数 | 120 | |||||
動作周波数 | 最大1.3GHz | |||||
ピーク性能 | Int 8で368TOPS、FP16で92TFlops | |||||
オンチップメモリー | 120MB | |||||
外部メモリー | LPDDR4×8ch、132GB/sec | |||||
I/F | PCIe Gen4×16 | |||||
ダイサイズ | 620mm2 |
おもしろいのはこのピーク性能は競合製品と比較するとそれほど高くないのだが、実際のアプリケーション性能では圧倒している、という話である。TensTorrentのページによれば以下の数字が記されている。
Glayskullの性能 | ||||||
---|---|---|---|---|---|---|
Resnet-50, 224x224 | 22431 IPS(Images per second) | |||||
BERT base, SQUAD | 2830 sentences/sec | |||||
BERT base, SQUAD+conditional features | 10150 sentences/sec | |||||
BERT base, SQUAD+conditional features+low prec FP | 23345 sentences/sec |
このResNet-50の数字で言えば、上のMicroProcessor Reportに示されたものだと以下の数字が示されている。
競合製品との比較 | ||||||
---|---|---|---|---|---|---|
メーカー/製品名 | Tenstorrent Grayskull |
Groq TSP |
NVIDIA Titan RTX |
|||
Peak Int8 Perf. | 368 TOPS | 820 TOPS | 261 TOPS | |||
ResNet-50 Perf. | 22431 IPS | 20400 IPS | 17400 IPS | |||
ResNet-50 Efficiency | 23% | 11% | 24% | |||
Board Power(TDP) | 75W | 300W | 280W | |||
ResNet-50 Perf/W | 393 IPS/W | 68 IPS/W | 62 IPS/W |
Groqは連載582回で紹介したが、絶対性能という点でも性能/消費電力という点でもGroqのTSPを上回る性能を発揮するというのがTenstorrentの説明である。
カタログのピーク性能でははるかに高いTSPがGrayskullに追いつけないのは、その効率(ResNet-50 Efficiency)が11%と低いからで、Grayskullはほぼ倍の23%という効率を示しているのがポイントである。
もっともTitan RTXも24%と決して効率は低くなく、その意味では今後GrayskullというかTensixそのものがもう少し効率を高められるかどうかが1つの鍵になるわけで、おそらくKeller氏が取り組むのはより効率を高められるハードウェアであろう。
ちなみにTensTorrentは同社の製品をHyperscale Data Center(銀行やファイナンシャルサービス、インフラ業、XaaS、エネルギーサービスなど)やNear Edge Data Center(コンテンツ配信やメディア配信、5Gテレコミュニケーション、Virtual RAN/スモールセル)、Micro Edge Data Center(自動車を含むモビリティ、スマートシティ/IoT、スマートリテール)などをターゲットとし、“One Architecture, All workloads”を標榜している。
今年はより規模の大きなWormholeも(順調にいけば)登場するはずで、Trainingの市場をどこまで握れるのか興味ある部分だ。下世話な話をすればKeller氏を招聘したことで、これまで門前払いを喰らっていた顧客にも話を聞いてもらえるようになる可能性は高く、そうした顧客を掴めるかどうか、今年は同社にとっても正念場なのかもしれない。
この連載の記事
-
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ