今回は、ここまで説明してきたいくつかのAIプロセッサーのアップデートをお届けしたい。4月19日から4月23日まで一週間ぶっ続けで、LSPC(Linley Spring Processor Conference) 2021が開催され、ここでさまざまな発表があったのだが、従来の製品についても追加の発表、あるいは情報の更新があった。ということでそうしたものを中心に説明しよう。
サンプルの存在が判明した
Cerebras WSE2
連載572回で紹介したCerebras WSEは、ほぼウェハー1枚をまるまる使ったダイサイズ4万6225mm2の巨大なチップである。もうここまで大きいとチップという言い方はそぐわない気もするのだが。このWSE(ウェハースケールエンジン)を搭載したCS-1というシステムはピッツバーグスーパーコンピューティングセンターやアルゴンヌ国立研究所が導入を始めているという話は記事の最後で説明した通り。
これに加えてローレンス・リバモア国立研究所やエジンバラパラレルコンピューティングセンターやグラクソ・スミスクラインなどでも導入されたことが明らかにされ、さらに他にも重工業や製薬/バイオ、防衛などの用途でも導入され始めたことが明らかにされた。
またAI用途だけでなく、HPC向けの論文も米国立エネルギー技術研究所との共著で出したといった話も紹介された。
ちなみに論文によれば、1台のCS-1で0.86PFlopsの処理性能でこれを実施できたそうで、ピーク性能のおおむね1/3の性能となるとする。他のシステムと比較すると、例えばNVIDIA A100の理論ピーク性能が78Flops/19.5Flops/9.7Flops(FP16/FP32/FP64)なので、これと比べても11倍~89倍高速ということになる。
国立エネルギー技術研究所はJoule 2.0というスーパーコンピューターを運用しており、これは4320個のXeon Gold 6148にTesla P100を組み合わせたシステムで、TOP500のスコアでは2020年11月に81位。理論性能は5750.8TFlops、実性能は3608.6TFlopsというものであるが、これと比較してCS-1は200倍高速、というのは普通では考えられない。
ちなみにその200倍を達成できた仕組みが下の画像だ。Z方向をSRAMに、X/Y方向をFeature Mapにそれぞれ格納する形でこれを実装することで、ローカルメモリーのみを利用して演算をひたすらブンまわせるようになり、これが性能向上につながったわけだ。
ところで消費電力が4600分の1というのはわかる(Joule 2.0はおそらく2160ノードほどになる)が、コストが「たったの」650分の1というのは、CS-1のお値段はJoule 2.0の4ノード分ほどでしかないことになる。実際にはここにインターコネクトやストレージなどいろいろ組み合わせる必要があるので、2ソケットのHP Proliant4台分よりはずっと高いのだが、それでも意外にお安いというのが率直な感想である。
さて本題はWSE-2である。そもそもWSEはTSMCの16nmを利用しており、すでに7nmが広く量産に使われていることを考えれば早晩移行するものと思われていたが、「そもそも可能なのか?」ということを含めてこれまで同社は説明をしてこなかった。今回はこのTSMCのN7を使ったWSE2のサンプルがすでに存在することを明らかにしたことになる。
内部のアーキテクチャーなどは一切変更がなく、微細化によってより多くのコアとメモリーを搭載できる、というのが唯一のメリットになる。
すでにこのWSE-2を搭載したCS-2も稼働している。またWSEと構造が変わらないのでCS-1用のソフトウェアは基本そのままCS-2で動くという話であった。
この連載の記事
-
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 - この連載の一覧へ