120のTensixコアを搭載するGrayskullは
他社を圧倒するアプリケーション性能
Tenstorrentは2019年に、小規模(6 Tensix)なJawbridgeを製造する。これはあくまでもテスト向けという感じである。ここである程度うまくいったと判断されたのだろう。2020年に製造されたのがGrayskullである。こちらはGlobalfoundriesの12LPで製造され、12×10で120のTensixコアを搭載する構成である。
Glayskullのスペック、MicroProcessor Reportによれば以下のように発表されている。
Glayskullのスペック | ||||||
---|---|---|---|---|---|---|
コア数 | 120 | |||||
動作周波数 | 最大1.3GHz | |||||
ピーク性能 | Int 8で368TOPS、FP16で92TFlops | |||||
オンチップメモリー | 120MB | |||||
外部メモリー | LPDDR4×8ch、132GB/sec | |||||
I/F | PCIe Gen4×16 | |||||
ダイサイズ | 620mm2 |
おもしろいのはこのピーク性能は競合製品と比較するとそれほど高くないのだが、実際のアプリケーション性能では圧倒している、という話である。TensTorrentのページによれば以下の数字が記されている。
Glayskullの性能 | ||||||
---|---|---|---|---|---|---|
Resnet-50, 224x224 | 22431 IPS(Images per second) | |||||
BERT base, SQUAD | 2830 sentences/sec | |||||
BERT base, SQUAD+conditional features | 10150 sentences/sec | |||||
BERT base, SQUAD+conditional features+low prec FP | 23345 sentences/sec |
このResNet-50の数字で言えば、上のMicroProcessor Reportに示されたものだと以下の数字が示されている。
競合製品との比較 | ||||||
---|---|---|---|---|---|---|
メーカー/製品名 | Tenstorrent Grayskull |
Groq TSP |
NVIDIA Titan RTX |
|||
Peak Int8 Perf. | 368 TOPS | 820 TOPS | 261 TOPS | |||
ResNet-50 Perf. | 22431 IPS | 20400 IPS | 17400 IPS | |||
ResNet-50 Efficiency | 23% | 11% | 24% | |||
Board Power(TDP) | 75W | 300W | 280W | |||
ResNet-50 Perf/W | 393 IPS/W | 68 IPS/W | 62 IPS/W |
Groqは連載582回で紹介したが、絶対性能という点でも性能/消費電力という点でもGroqのTSPを上回る性能を発揮するというのがTenstorrentの説明である。
カタログのピーク性能でははるかに高いTSPがGrayskullに追いつけないのは、その効率(ResNet-50 Efficiency)が11%と低いからで、Grayskullはほぼ倍の23%という効率を示しているのがポイントである。
もっともTitan RTXも24%と決して効率は低くなく、その意味では今後GrayskullというかTensixそのものがもう少し効率を高められるかどうかが1つの鍵になるわけで、おそらくKeller氏が取り組むのはより効率を高められるハードウェアであろう。
ちなみにTensTorrentは同社の製品をHyperscale Data Center(銀行やファイナンシャルサービス、インフラ業、XaaS、エネルギーサービスなど)やNear Edge Data Center(コンテンツ配信やメディア配信、5Gテレコミュニケーション、Virtual RAN/スモールセル)、Micro Edge Data Center(自動車を含むモビリティ、スマートシティ/IoT、スマートリテール)などをターゲットとし、“One Architecture, All workloads”を標榜している。
今年はより規模の大きなWormholeも(順調にいけば)登場するはずで、Trainingの市場をどこまで握れるのか興味ある部分だ。下世話な話をすればKeller氏を招聘したことで、これまで門前払いを喰らっていた顧客にも話を聞いてもらえるようになる可能性は高く、そうした顧客を掴めるかどうか、今年は同社にとっても正念場なのかもしれない。
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ