学習分野における精度改善を狙う
はたしてGPUを駆逐できるか?
さてここまでの話であれば「実現したらすごいね」で終わるわけだが、同社はすでにTSMCの7nmを利用してCrddinal SN10というチップを製造している。
現時点でもまだ正確なスペックは未公開(演算性能数百TFLOPSや内蔵SRAM数百MB、外部に1TBクラスのメモリーを接続可能など)であるが、その性能はなかなか目覚ましい。12月9日に出したリリースによれば以下とされている。
- NVIDIAのDGX A100と比較してDLRM(Deep-Learning Recommendation Model)の推論は7倍のスループットとレイテンシー改善を実現しており、これは世界最高記録。またBERT-Large(Googleが2018年に発表した自然言語処理モデル。BASEとLARGEの2種類のモデルがあり、LARGEは24層+隠れ層1024、総パラメータ3億4000万個)の学習ではDGX A100と比較して1.4倍高速だった。
- NVIDIAのA100 GPUベースでのDLRMの精度は80.46%だったが、SN10ベースは90.23%となった。
もう少し細かい数字が12月14日のEETimesに掲載されているが、こちらによれば以下のような数字が並んでいる。
- SN10を64個搭載したシステムは、BERT-Largeの28800 Samples/secの学習速度を記録して、これは世界記録
- またSN10を8個搭載したシステムでは、DLRMで8632 Samples/secの推論速度を達成し、こちらも世界記録
- 1000億個のパラメーターを持つ自然言語処理モデルのネットワークの学習を、SN10が8個のノード(合計メモリー12TB)で実現できる。同じことをGPUで処理するためには412個の最新GPUが必要で、こちらの合計メモリーは32TBに達する。
実はもう1つ数字がある。ここまでの話はML処理に使った場合の話であるが、データ分析のアクセラレーターとしても利用できるという話である。
これを実装したGorgonというソフトウェアフレームワークを、Xeon E7-8890上で同様の処理ができるApache MADlibを走らせた場合と比較すると、絶対性能および性能/消費電力比が200~2000倍向上するとしてる。
SambaNovaはすでにシステムの提供も開始している。先にSN10が8個、という数字を示したが、下の画像の左側、2Uラック×5段積みのものが8ソケットの構成、1ラック(42U)にはこれが4つ、つまりラック当たりSN10が32個収まる格好だ。
システム的にはこれを4つ並べたSN10が128個という構成が最大になる模様だ。
実はこのシステム、すでにアルゴンヌ/ローレンス・リバモア/ロスアラモスの3つの国立研究所に納入されて初期の運用が始まっているようだ。また同社はシステム売り以外に、DaaS(Dataflow as a Service)という月単位で計算能力を貸し出すサービスなどもラインナップしているのが特徴的である。
創業からわずか3年でシステム納入まで漕ぎつけた同社のSN10が今後広く採用されるかどうかはまだ見えない部分が多い。
ただGPUがしばしば演算性能を上げるために精度の切り捨て(FP32→FP16あるいはBFloat16)をしているなか、SN10はFP32を保つことで、特に学習分野における精度改善を狙っているのが大きな差別化要因である。はたしてこれでGPUを駆逐できるのか、今後の展開が楽しみではある。
この連載の記事
-
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ