120のTensixコアを搭載するGrayskullは
他社を圧倒するアプリケーション性能
Tenstorrentは2019年に、小規模(6 Tensix)なJawbridgeを製造する。これはあくまでもテスト向けという感じである。ここである程度うまくいったと判断されたのだろう。2020年に製造されたのがGrayskullである。こちらはGlobalfoundriesの12LPで製造され、12×10で120のTensixコアを搭載する構成である。
ちなみにWormholeの図はおそらく正確ではない(Tensixコアの数はもっと多くないとおかしい)。Tenstorrent自身、まだWormholeの詳細なスペックは公開していないので、この図はイメージであろう
Glayskullのスペック、MicroProcessor Reportによれば以下のように発表されている。
| Glayskullのスペック | ||||||
|---|---|---|---|---|---|---|
| コア数 | 120 | |||||
| 動作周波数 | 最大1.3GHz | |||||
| ピーク性能 | Int 8で368TOPS、FP16で92TFlops | |||||
| オンチップメモリー | 120MB | |||||
| 外部メモリー | LPDDR4×8ch、132GB/sec | |||||
| I/F | PCIe Gen4×16 | |||||
| ダイサイズ | 620mm2 | |||||
おもしろいのはこのピーク性能は競合製品と比較するとそれほど高くないのだが、実際のアプリケーション性能では圧倒している、という話である。TensTorrentのページによれば以下の数字が記されている。
| Glayskullの性能 | ||||||
|---|---|---|---|---|---|---|
| Resnet-50, 224x224 | 22431 IPS(Images per second) | |||||
| BERT base, SQUAD | 2830 sentences/sec | |||||
| BERT base, SQUAD+conditional features | 10150 sentences/sec | |||||
| BERT base, SQUAD+conditional features+low prec FP | 23345 sentences/sec | |||||
このResNet-50の数字で言えば、上のMicroProcessor Reportに示されたものだと以下の数字が示されている。
| 競合製品との比較 | ||||||
|---|---|---|---|---|---|---|
| メーカー/製品名 | Tenstorrent Grayskull |
Groq TSP |
NVIDIA Titan RTX |
|||
| Peak Int8 Perf. | 368 TOPS | 820 TOPS | 261 TOPS | |||
| ResNet-50 Perf. | 22431 IPS | 20400 IPS | 17400 IPS | |||
| ResNet-50 Efficiency | 23% | 11% | 24% | |||
| Board Power(TDP) | 75W | 300W | 280W | |||
| ResNet-50 Perf/W | 393 IPS/W | 68 IPS/W | 62 IPS/W | |||
Groqは連載582回で紹介したが、絶対性能という点でも性能/消費電力という点でもGroqのTSPを上回る性能を発揮するというのがTenstorrentの説明である。
カタログのピーク性能でははるかに高いTSPがGrayskullに追いつけないのは、その効率(ResNet-50 Efficiency)が11%と低いからで、Grayskullはほぼ倍の23%という効率を示しているのがポイントである。
もっともTitan RTXも24%と決して効率は低くなく、その意味では今後GrayskullというかTensixそのものがもう少し効率を高められるかどうかが1つの鍵になるわけで、おそらくKeller氏が取り組むのはより効率を高められるハードウェアであろう。
ちなみにTensTorrentは同社の製品をHyperscale Data Center(銀行やファイナンシャルサービス、インフラ業、XaaS、エネルギーサービスなど)やNear Edge Data Center(コンテンツ配信やメディア配信、5Gテレコミュニケーション、Virtual RAN/スモールセル)、Micro Edge Data Center(自動車を含むモビリティ、スマートシティ/IoT、スマートリテール)などをターゲットとし、“One Architecture, All workloads”を標榜している。
今年はより規模の大きなWormholeも(順調にいけば)登場するはずで、Trainingの市場をどこまで握れるのか興味ある部分だ。下世話な話をすればKeller氏を招聘したことで、これまで門前払いを喰らっていた顧客にも話を聞いてもらえるようになる可能性は高く、そうした顧客を掴めるかどうか、今年は同社にとっても正念場なのかもしれない。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ













