このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第613回

2021年春の半導体会議で判明した新情報 AIプロセッサーの昨今

2021年05月03日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 今回は、ここまで説明してきたいくつかのAIプロセッサーのアップデートをお届けしたい。4月19日から4月23日まで一週間ぶっ続けで、LSPC(Linley Spring Processor Conference) 2021が開催され、ここでさまざまな発表があったのだが、従来の製品についても追加の発表、あるいは情報の更新があった。ということでそうしたものを中心に説明しよう。

サンプルの存在が判明した
Cerebras WSE2

 連載572回で紹介したCerebras WSEは、ほぼウェハー1枚をまるまる使ったダイサイズ4万6225mm2の巨大なチップである。もうここまで大きいとチップという言い方はそぐわない気もするのだが。このWSE(ウェハースケールエンジン)を搭載したCS-1というシステムはピッツバーグスーパーコンピューティングセンターやアルゴンヌ国立研究所が導入を始めているという話は記事の最後で説明した通り。

 これに加えてローレンス・リバモア国立研究所やエジンバラパラレルコンピューティングセンターやグラクソ・スミスクラインなどでも導入されたことが明らかにされ、さらに他にも重工業や製薬/バイオ、防衛などの用途でも導入され始めたことが明らかにされた。

グラクソ・スミスクラインは創薬向けの用途にCS-1を利用するとのこと

 またAI用途だけでなく、HPC向けの論文も米国立エネルギー技術研究所との共著で出したといった話も紹介された。

HPC向けの論文は、600×595×1536メッシュの構造を線型方程式で解く(この際にBi-CGSTAB法と呼ばれる方式を利用した)という処理を、CS-1を利用して実施したというもの

 ちなみに論文によれば、1台のCS-1で0.86PFlopsの処理性能でこれを実施できたそうで、ピーク性能のおおむね1/3の性能となるとする。他のシステムと比較すると、例えばNVIDIA A100の理論ピーク性能が78Flops/19.5Flops/9.7Flops(FP16/FP32/FP64)なので、これと比べても11倍~89倍高速ということになる。

 国立エネルギー技術研究所はJoule 2.0というスーパーコンピューターを運用しており、これは4320個のXeon Gold 6148にTesla P100を組み合わせたシステムで、TOP500のスコアでは2020年11月に81位。理論性能は5750.8TFlops、実性能は3608.6TFlopsというものであるが、これと比較してCS-1は200倍高速、というのは普通では考えられない。

 ちなみにその200倍を達成できた仕組みが下の画像だ。Z方向をSRAMに、X/Y方向をFeature Mapにそれぞれ格納する形でこれを実装することで、ローカルメモリーのみを利用して演算をひたすらブンまわせるようになり、これが性能向上につながったわけだ。

加えてウェハースケールエンジンではとにかくプロセッサーの数が多いため、3Dのメッシュを2Dに展開しても収まる(うまく収まるように展開する)ことで、Mul-Addの計算だけ高速で処理すればよいという形に実装できるとする

 ところで消費電力が4600分の1というのはわかる(Joule 2.0はおそらく2160ノードほどになる)が、コストが「たったの」650分の1というのは、CS-1のお値段はJoule 2.0の4ノード分ほどでしかないことになる。実際にはここにインターコネクトやストレージなどいろいろ組み合わせる必要があるので、2ソケットのHP Proliant4台分よりはずっと高いのだが、それでも意外にお安いというのが率直な感想である。

 さて本題はWSE-2である。そもそもWSEはTSMCの16nmを利用しており、すでに7nmが広く量産に使われていることを考えれば早晩移行するものと思われていたが、「そもそも可能なのか?」ということを含めてこれまで同社は説明をしてこなかった。今回はこのTSMCのN7を使ったWSE2のサンプルがすでに存在することを明らかにしたことになる。

TSMCのN7を使ったWSE-2。個々のタイルのサイズもおおむね初代WSEと同じに見える

 内部のアーキテクチャーなどは一切変更がなく、微細化によってより多くのコアとメモリーを搭載できる、というのが唯一のメリットになる。

圧巻のスケール。トランジスタ数が2.17倍に増えた関係で、メモリー容量やコア数、帯域幅なども全部2.2倍近くになった。数字そのものはここまでインフレすると、もうよくわからない

 すでにこのWSE-2を搭載したCS-2も稼働している。またWSEと構造が変わらないのでCS-1用のソフトウェアは基本そのままCS-2で動くという話であった。

CS-1とCS-2の違いはWSEとWSE-2の違いが最大のもので、それ以外はほとんど変わらない模様

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

最新記事

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン