このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第849回

d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現

2025年11月10日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

 Hot Chips 2025で発表があったプロセッサーで今回取り上げるのはd-Matrix社のCorsairである。これはCIM(Compute In-Memory)方式(同社はDIMC:Digital In-Memory Computingと称している)を利用したAI推論向けである。

 CIMについては、連載606回のSamsung PIM連載591回のMythic AMPなどいくつか紹介してきているが、基本は、DRAMやフラッシュなどのメモリー素子に、SRAMよりも高い記憶密度で演算機構を組み込むというものである。これに対してCorsairはDIMCという名前からわかるように、SRAMベースのCIMになっているのが特徴的である。

右グラフはA100を使った場合のテストで、COT(Chain-of-Thought:思考の連鎖)を長くとるとデータ形式が1Bでも8Bとほぼ変わらない精度になるが、猛烈にレイテンシーが増える。それだけ連鎖を長くつないでいるため、連鎖を短くすると精度がガタ落ちになるので、どうやって1Bのまま精度を高めつつレイテンシーを減らすかがカギ、という話だ

SRAMと演算器を密結合させた
AI推論向けプロセッサーのCorsair

 

 まず同社の基本的な考え方は、小規模なモデルでもそれなりにレイテンシーをかければ精度は十分に上がるし、性能も大規模モデルの20倍以上に達するが、より長大なChain-of-Thought(思考連鎖)が必要になるというもの。だからレイテンシーが増えるわけで、これを高速化するにはメモリー帯域が足りないのである。

 別の例では音声認識を例にとっている。これも精度を引き上げるためには大規模モデルを使うとともに、性能を引き上げるためにはBatch Sizeを長く取るのが効果的だが、ある程度Batch Sizeをとっても性能が頭打ちになってくる。この主要因は、Tokenの生成がメモリー性能に依存するからだ。

音声認識の例。WhisperとはOpenAIのWhisperのこと

 そこでd-Matrixが考えたのは、SRAMと演算器の密結合である。「そんなのこれまでもあったじゃないか」という声も聞こえてきそうだが、このあたりの話は後述する。今回発表されたCorsairは、8つのチップレットから構成される形になっている。

それぞれのチップレットに2個ずつ、LPDDR5-6400(32bit幅)が接続されるはずだが、それはチップレット周囲のカバーに隠れて見えない

 そのチップレットの構造が下の画像だ。4つのスライスから構成されるクワッドという管理単位が4つで1つのチップレットである。つまり1つのチップレットにスライスが16個搭載される格好だ。

チップレットの正確なサイズは公開されていないが、上の写真から推察するに21.7×14.3mmといったところで310.3mm2前後かと思われる

 現在のCorsair搭載カードは、1枚のPCIeカードに8枚のチップレットが搭載されるだけである。これは物理的な配置がこれ以上難しいということもあるが、消費電力が600Wと結構なもの(概算で言えばチップレット8つで600W、すなわち1個あたり75W)であり、これ以上搭載が難しいという話でもある。

 ところで2つ上の画像を見るとカード上端がやはりコネクター構造になっているのがわかる。これは2枚のCorsairカードをブリッジで接続するためのもので、こうすることで16チップレットの構成を容易に取れるとする。

カード上端がコネクター構造になっているのは、2枚のCorsairをブリッジで接続するため。いにしえのSLIブリッジやAMDのInstinct MI100のXGMIブリッジカードを連想する構成である

 さらに大規模な構成が必要な場合、64チップレットまでの構成が可能である。これは1つのサーバーシャーシの中にCorsairカード×2の構成を2つ搭載し、間をPCIeスイッチで接続。このサーバーシャーシ2つは、PCIeスイッチまたは同社のJetStream I/Oアクセラレーターを使って接続するというものだ。

2枚のCorsairカードと1枚のJetStreamでペアを組む構成となる。Scale upはPCIeスイッチ同士をOCuLink(PCIe Gen5なのでCopperLink)ケーブルで接続する形を想定している模様。レイテンシー的にこれが限界なのだろう

 JetStreamは正式には今年9月8日に発表されたばかりの製品なのでHot Chipsの時点ではまだ未公開であり、それもあってか詳細が明らかにされていないが、通常のイーサネットカードよりも低いレイテンシーで通信ができるというものである。

 2枚のCorsairカードと1枚のJetStreamでペアを組む構成では、それぞれのシャーシのJetStream同士をネットワークスイッチを経由して接続することで、3つ以上のサーバーをスケールアウトのように接続することも可能だ。ただスケールアウトの場合では、当然通信のレイテンシーが大幅に増えるので、スケールアップのケースではPCIeでの接続を考えており、2シャーシまでを想定している模様だ。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン