120のTensixコアを搭載するGrayskullは
他社を圧倒するアプリケーション性能
Tenstorrentは2019年に、小規模(6 Tensix)なJawbridgeを製造する。これはあくまでもテスト向けという感じである。ここである程度うまくいったと判断されたのだろう。2020年に製造されたのがGrayskullである。こちらはGlobalfoundriesの12LPで製造され、12×10で120のTensixコアを搭載する構成である。

ちなみにWormholeの図はおそらく正確ではない(Tensixコアの数はもっと多くないとおかしい)。Tenstorrent自身、まだWormholeの詳細なスペックは公開していないので、この図はイメージであろう
Glayskullのスペック、MicroProcessor Reportによれば以下のように発表されている。
Glayskullのスペック | ||||||
---|---|---|---|---|---|---|
コア数 | 120 | |||||
動作周波数 | 最大1.3GHz | |||||
ピーク性能 | Int 8で368TOPS、FP16で92TFlops | |||||
オンチップメモリー | 120MB | |||||
外部メモリー | LPDDR4×8ch、132GB/sec | |||||
I/F | PCIe Gen4×16 | |||||
ダイサイズ | 620mm2 |
おもしろいのはこのピーク性能は競合製品と比較するとそれほど高くないのだが、実際のアプリケーション性能では圧倒している、という話である。TensTorrentのページによれば以下の数字が記されている。
Glayskullの性能 | ||||||
---|---|---|---|---|---|---|
Resnet-50, 224x224 | 22431 IPS(Images per second) | |||||
BERT base, SQUAD | 2830 sentences/sec | |||||
BERT base, SQUAD+conditional features | 10150 sentences/sec | |||||
BERT base, SQUAD+conditional features+low prec FP | 23345 sentences/sec |
このResNet-50の数字で言えば、上のMicroProcessor Reportに示されたものだと以下の数字が示されている。
競合製品との比較 | ||||||
---|---|---|---|---|---|---|
メーカー/製品名 | Tenstorrent Grayskull |
Groq TSP |
NVIDIA Titan RTX |
|||
Peak Int8 Perf. | 368 TOPS | 820 TOPS | 261 TOPS | |||
ResNet-50 Perf. | 22431 IPS | 20400 IPS | 17400 IPS | |||
ResNet-50 Efficiency | 23% | 11% | 24% | |||
Board Power(TDP) | 75W | 300W | 280W | |||
ResNet-50 Perf/W | 393 IPS/W | 68 IPS/W | 62 IPS/W |
Groqは連載582回で紹介したが、絶対性能という点でも性能/消費電力という点でもGroqのTSPを上回る性能を発揮するというのがTenstorrentの説明である。
カタログのピーク性能でははるかに高いTSPがGrayskullに追いつけないのは、その効率(ResNet-50 Efficiency)が11%と低いからで、Grayskullはほぼ倍の23%という効率を示しているのがポイントである。
もっともTitan RTXも24%と決して効率は低くなく、その意味では今後GrayskullというかTensixそのものがもう少し効率を高められるかどうかが1つの鍵になるわけで、おそらくKeller氏が取り組むのはより効率を高められるハードウェアであろう。
ちなみにTensTorrentは同社の製品をHyperscale Data Center(銀行やファイナンシャルサービス、インフラ業、XaaS、エネルギーサービスなど)やNear Edge Data Center(コンテンツ配信やメディア配信、5Gテレコミュニケーション、Virtual RAN/スモールセル)、Micro Edge Data Center(自動車を含むモビリティ、スマートシティ/IoT、スマートリテール)などをターゲットとし、“One Architecture, All workloads”を標榜している。
今年はより規模の大きなWormholeも(順調にいけば)登場するはずで、Trainingの市場をどこまで握れるのか興味ある部分だ。下世話な話をすればKeller氏を招聘したことで、これまで門前払いを喰らっていた顧客にも話を聞いてもらえるようになる可能性は高く、そうした顧客を掴めるかどうか、今年は同社にとっても正念場なのかもしれない。

この連載の記事
-
第811回
PC
Panther Lakeを2025年後半、Nova Lakeを2026年に投入 インテル CPUロードマップ -
第810回
PC
2nmプロセスのN2がTSMCで今年量産開始 IEDM 2024レポート -
第809回
PC
銅配線をルテニウム配線に変えると抵抗を25%削減できる IEDM 2024レポート -
第808回
PC
酸化ハフニウム(HfO2)でフィンをカバーすると性能が改善、TMD半導体の実現に近づく IEDM 2024レポート -
第807回
PC
Core Ultra 200H/U/Sをあえて組み込み向けに投入するのはあの強敵に対抗するため インテル CPUロードマップ -
第806回
PC
トランジスタ最先端! RibbonFETに最適なゲート長とフィン厚が判明 IEDM 2024レポート -
第805回
PC
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート -
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ