今回は、ここまで説明してきたいくつかのAIプロセッサーのアップデートをお届けしたい。4月19日から4月23日まで一週間ぶっ続けで、LSPC(Linley Spring Processor Conference) 2021が開催され、ここでさまざまな発表があったのだが、従来の製品についても追加の発表、あるいは情報の更新があった。ということでそうしたものを中心に説明しよう。
サンプルの存在が判明した
Cerebras WSE2
連載572回で紹介したCerebras WSEは、ほぼウェハー1枚をまるまる使ったダイサイズ4万6225mm2の巨大なチップである。もうここまで大きいとチップという言い方はそぐわない気もするのだが。このWSE(ウェハースケールエンジン)を搭載したCS-1というシステムはピッツバーグスーパーコンピューティングセンターやアルゴンヌ国立研究所が導入を始めているという話は記事の最後で説明した通り。
これに加えてローレンス・リバモア国立研究所やエジンバラパラレルコンピューティングセンターやグラクソ・スミスクラインなどでも導入されたことが明らかにされ、さらに他にも重工業や製薬/バイオ、防衛などの用途でも導入され始めたことが明らかにされた。
またAI用途だけでなく、HPC向けの論文も米国立エネルギー技術研究所との共著で出したといった話も紹介された。
ちなみに論文によれば、1台のCS-1で0.86PFlopsの処理性能でこれを実施できたそうで、ピーク性能のおおむね1/3の性能となるとする。他のシステムと比較すると、例えばNVIDIA A100の理論ピーク性能が78Flops/19.5Flops/9.7Flops(FP16/FP32/FP64)なので、これと比べても11倍~89倍高速ということになる。
国立エネルギー技術研究所はJoule 2.0というスーパーコンピューターを運用しており、これは4320個のXeon Gold 6148にTesla P100を組み合わせたシステムで、TOP500のスコアでは2020年11月に81位。理論性能は5750.8TFlops、実性能は3608.6TFlopsというものであるが、これと比較してCS-1は200倍高速、というのは普通では考えられない。
ちなみにその200倍を達成できた仕組みが下の画像だ。Z方向をSRAMに、X/Y方向をFeature Mapにそれぞれ格納する形でこれを実装することで、ローカルメモリーのみを利用して演算をひたすらブンまわせるようになり、これが性能向上につながったわけだ。
ところで消費電力が4600分の1というのはわかる(Joule 2.0はおそらく2160ノードほどになる)が、コストが「たったの」650分の1というのは、CS-1のお値段はJoule 2.0の4ノード分ほどでしかないことになる。実際にはここにインターコネクトやストレージなどいろいろ組み合わせる必要があるので、2ソケットのHP Proliant4台分よりはずっと高いのだが、それでも意外にお安いというのが率直な感想である。
さて本題はWSE-2である。そもそもWSEはTSMCの16nmを利用しており、すでに7nmが広く量産に使われていることを考えれば早晩移行するものと思われていたが、「そもそも可能なのか?」ということを含めてこれまで同社は説明をしてこなかった。今回はこのTSMCのN7を使ったWSE2のサンプルがすでに存在することを明らかにしたことになる。
内部のアーキテクチャーなどは一切変更がなく、微細化によってより多くのコアとメモリーを搭載できる、というのが唯一のメリットになる。
すでにこのWSE-2を搭載したCS-2も稼働している。またWSEと構造が変わらないのでCS-1用のソフトウェアは基本そのままCS-2で動くという話であった。
この連載の記事
-
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ -
第786回
PC
Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ - この連載の一覧へ