このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第816回

シリコンインターポーザーを使わない限界の信号速度にチャレンジしたIBMのTelum II ISSCC 2025詳報

2025年03月24日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • お気に入り
  • 本文印刷

 Telum IIの話は一度連載790回で紹介している。順序から言えばz17相当になるのだが、z16はTelumとして発表され、その後継がTelum IIとなっている。8つのコアにDPUと推論アクセラレーターを搭載したチップであるが、そもそもこの写真はなんなのだ? というくらいにいろいろ情報が欠けていた発表であった。今回は多少不明点が解消された格好だ。

AI推論用アクセラレーターを搭載するIBMのTelum II

8つのチップで1枚のDrawerを構成するTelum II

 まず全体の構成だが、ダイサイズは600mm2で、430億トランジスタ。直接比較しても仕方がないが、TSMCのN5で製造されるZen 4のCCDが71mm2で65億トランジスタだから、トランジスタの密度は9155万個/mm2ほど、対してTelum IIは7167万個/mm2で、やや密度が低い印象を受ける。

Telumの全体構造。A-Bus/M-Bus/X-Busの機能は後述する

 もっともこのダイ写真を見ると、密度が濃い部分はCoreやAI、DPUなどの演算ユニットが入っている部分で、I/F部はほとんどが密度の低いPHYであることを考えると、こんなものかという感じもある。

 そのTelum II、コア数は1チップあたり8つと少ないのだが、実際には8チップで1枚のDrawerを構成することになる。このDrawerが実際のプロセッサーの最小構成となるので、コア数は64という計算になる。

この写真、本当はこの上にもう1つ2.4μmの電源/クロック信号用の配線層がある

 配線層は18層(16層+2 RDL)であると発表されている。これがSamsungの5nmの層数として標準的なものかどうかは確認できないが、例えばIntel 4は15層+RDLだったことを考えると、そう突飛な数字ではないと思われる。

 ところで最初の画像に戻るが、やけに多くのバスがあるのがわかる。以下がその概要であるが、これは先代のz16こと初代Telumも同じ構造であった。

左の図が1枚のDrawer上での接続方法、右の図が4枚のDrawer同士の接続方法である

  • 個々のチップからはA-Bus/M-Bus/X-Busの3種類のバスが出る
  • 2つのチップで1つのパッケージに収められる。IBM用語ではチップをCP(Central Processor)と呼び、このCPを2つ収めたパッケージをDCM(Dual Chip Module)と呼ぶ。このDCMの中で、2つのCPはM-Busを使って接続される
  • 1枚のDrawerには4つのDCMが搭載される。このDCM同士の接続に利用されるのがX-Busである
  • Drawer同士は、CP同士の接続の形で接続される。この際の接続に利用されるのがA-Busである。CP-0/CP-1のA-Busは未接続であり、Drawer同士の接続には使われない

 このA-Bus/M-Bus/X-Bus、バスのプロトコルそのものがどうなっているのかの開示がないのでわからないが、おそらく物理的には以下のようになっているものと思われる。

M-Bus 2つのチップ間をパッケージ上で繋ぐので、速度を控えめにしてその分バス幅を増やした構造
X-Bus Drawer上でのDCM同士の接続になるので、M-Busよりはバス幅を減らし、その分信号速度を上げた構造
A-Bus Drawer間を跨ぐ接続になるので、配線そのものがシャーシの外に出ることになる。なので配線数を大幅に減らし、その分信号速度をギリギリまで上げた構造

 こういう構成は珍しい。例えばAMDのMI300Cを例に取れば、1つのパッケージ内での接続はI/Oダイ同士をシリコン・インターポーザーで接続する形になっており、ここはTelum IIで言うところのM-Busに相当する。ただキャリアボード上にMI300Cを複数接続するのはインフィニティ・ファブリック経由になっており、これがTelum IIで言うところのX-Bus相当である。

 ここまではいいのだが、キャリアボード同士の接続はAMDならPCI Express経由であり、スイッチを挟んでスケーラビリティを確保できる。さらに大規模な場合は、FrontierのようにPCI Expressの先にネットワークカードを装着し、相互をSlingshotなどでつなぐ形になる。これに対しTelum IIではA-BusでPoint-to-Pointの相互接続になっているあたりがあまり一般的ではない。

Telum(z16)のDrawerの構成図。このトポロジーそのものはTelum IIでも変わらない

 もっともこの構成では4 Drawerが最大になっている。ではもっと大規模なシステムはどうするか? というと、Coupling Expressと呼ばれるIBM独自のイーサネットベースのインターコネクトがあり、これで疎結合の形でシステム同士を接続することになっている。要するに通常なら1枚のキャリアボード(Telum IIで言うならDrawer)内部の接続に使われるのがローカルインターコネクトであるが、IBM的には4 Drawerまではローカルインターコネクトでつなぐという位置づけにあると考えた方が良さそうだ。

 もう少しI/Oまわりの話を続けよう。Telum IIのI/Oが下の画像であるが、TelumではPCIe Gen4x16ないしPCIe Gen5x8がチップあたり2つだったのが2×PCIe Gen5x16になった。

Telum IIのI/O。メモリーは、Telumの時代からDDIMM(Differential DIMM)を利用しており、1つのDCMに16枚のDDIMMが接続できる構造になっている。Drawer全体で言えば64枚で、これで最大16TBという構成である

 ちなみにそのTelumの場合1枚のDrawerに最大14枚、1システムで56枚のカードが装着可能だったのが、Telum IIでは最大192枚という壮絶な数に増えている。Drawerあたり48枚になる計算で、おそらくはPCIe Bifurcation(x16を2x8や4x4/8x2/16x1に分割できる)を組み合わせてこの数字になっている(か、Drawerの外にPCIe Switchを搭載したカード増設用のシャーシが用意されるかのどちらか)ものと思われる。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン