このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第697回

CPUとDSPを融合させたChimeraはまさに半導体のキメラだった AIプロセッサーの昨今

2022年12月12日 12時00分更新

文● 山県 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

PEをデータフローで動作させて高効率を実現

 ちなみにそのPEがどうして効率的か? と言う説明はあった。下の画像は3×3の畳み込み演算の場合だが、まず隣接する4方向との間で演算の半分を行ない、次のサイクルで残り半分の演算ができる格好になる。

中央のPEと、その上下左右にあるPEの間で演算を行なう。一方斜め方向の4つのPEは、自分の保持するデータを隣りのPEに移動する

上の画像で行なった、元は斜め方向にあったデータの演算がこのサイクルで行なえる

 結果、3x3の畳み込みが2サイクルで実施できるわけだ。同じ仕組みで、より大きなサイズの畳み込み演算も高効率で実現可能というのが同社の説明である。

PEをデータフローで動作させるので、結果的に高効率が実現できるわけで、確かにこれを見る限りデータフローっぽい動作になっている

 なお、メモリー回りで言えば、2次キャッシュを経由すると最大70倍の電力消費となるそうで、やはりDMAエンジンを経由してアクセスするのはそれなりにコスト増になるのは間違いない。

2次キャッシュを経由すると最大70倍の電力消費となる。右の数字はあくまでもデータアクセスの際の消費電力の比であって、速度の比ではないことに注意

 でありながらもあえてこんな構成にしたのは、例えばすべてのLRMをファブリックでつなぐような構成にすると、そのほうが複雑さが増し、回路規模が増え消費電力が増えるという判断だったのかもしれない。

 後述するQB4の構成では、RESNET-50動作時の消費電力を1W未満に抑えたというあたり、性能と消費電力、複雑さに関してのバーターとしてこの構成になった、と考えるのが妥当なのかもしれない。

QB1が64PE、QB4が256PE、QB16が1024PEという構成になっているようだ。逆に言うとScalar Elementの方は構成が同じ模様

 Chimera GPNPUはこのPEの数でQB1~QB16まで3つのラインナップが用意されている。すでにQB4構成に関しての試作チップは存在しており、ラスベガスで開催されるCES 2023に合わせて来年1月5日と1月6日にブースでデモを行なうとしている。

2つ上の画像では7nmで1W未満という説明だったが、この試作チップはTSMCの16FFCの製造とされており、7nmの方は推定値なのかもしれない

 また同社は製品だけでなくIPライセンスの形での提供も考えているそうだ。この試作チップはM.2の2280サイズに収まっており、いわゆるエッジ向けAI推論プロセッサーと同じ感じになっている。

 この製品版の方は2023年第1四半期中に準備が整うようで、仮にここから量産を始めると第2四半期あたりに最初の量産チップが出てくる格好だろうか。すでにSDKの提供はスタートしており、またLLVM C++コンパイラおよび命令セットシミュレーターも限定的にだが提供を開始しているようだ。

この量産チップのプロセスは未公表。7nmあたりに思えるが、このあたりは価格とのご相談の面もある

 根本的なところで、ChimeraをChimeraたらしめている、Scalar ElementとMatrix Elementの謎のパイプライン構造の意味はわからないし、QA4構成で1GHz駆動では4TOPSというのは、性能として低くはないが高くもないという微妙なところである。

 とはいえかなりおもしろいプロセッサーではあり、果たしてどこまでマーケットが取れるのか見守りたいところだ。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン