このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第706回

なぜかRISC-Vに傾倒するTenstorrent AIプロセッサーの昨今

2023年02月13日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Tensixコアは縦横4方向のリンクを持つ
しかもNOCはマルチチップ構成で非常に有用

 さて、GrayskullでもTensixコア同士はNoCで接続されているという話があったが、これはWormholeも同じである。下の画像がWormholeのネットワーク構成だが、すべてのTensixコアには2つのルーターが置かれ、それぞれのルーターは縦方向と横方向の2対のリンクを保持しており、結果としてTensixコアは縦横4方向のリンクを持つ構造になる。

Tensixコアは縦横4方向のリンクを持つ。それぞれのリンクはリングバスで、しかもひねった形で接続されるという独特な実装である

 このメッシュの上でNOCを構築するのはGrayskullと同じである。ただGrayskullではこれをNOCにする意味が今ひとつ不明だったのだが、続くスライドでその意味が完全に理解できた。

横方向のリンクはそのままWormholeの中で完結し、縦方向のみ外に出る格好

 先にも書いたように、Wormholeは100GbEを16本搭載し、これを利用してチップ間接続が可能になっている。上の画像はこのWormholeを12個集約した例であるが、16本のGbEを4本づつに分けたうえで、それぞれ上下左右のWormholeと接続する格好である。

 この際にリンクはGbEを経由して外部に引っ張り出される形になる。

GbEを経由してリンクが外部に引っ張り出されるということは、リンクそのものの速度は50Mbpsという計算になる

 この構成で言えば、80×12=960個のTensixコアが特にパーティションもなにもない、均一な形で接続されているようにプログラマーからは見える。こうなってくると、NOCを利用するメリットは明確である。

 Wormholeが1チップで動作しているのであれば、NOCのメリットはあまり感じられないが、物理的にどうつながっているかケースバイケースのマルチチップ構成でプログラミングをすることを考えると、NOCは非常に有用である。

仮想的には40行×32列のTensixコアが並んでいるように見えるが、物理的にはまた別の配置であって、その際に最適な通信経路をプログラム側が考えなくても、NOCにお任せしてしまうのが一番賢明であろう

 ちなみに2021年の計画では、このWormholeを32個つないだNebulaが4Uサーバーとして提供され、このNebulaを8つ搭載した48UのラックがGalaxyとされていた。

4Uというあたり、基板は2枚でそれぞれに16個のWormholeが載る構成(あるいは8個のWormholeを乗せた基板が4枚か、もしくは4個のWormholeを乗せたドーターカード8枚がキャリアボードにささる格好だろうか?)を考えていたように思われる

管理用に2UのEPYCサーバー×4と、メモリープール、それとToR(Top Of Rack)スイッチが載っているのがわかる。メモリープールが今ひとつ正体不明である。CXLベースのメモリーアプライアンスとも思えないのだが……

 そのGalaxyの内部結線を分解したのが下の画像だ。

おのおののNeburaからは、外部にトータル96レーンの100GbEが出る計算になるが、縦方向に16レーン、横方向に32レーンを割り振る

 このGalaxyでは256個のWormholeが搭載され、Tensixコアはトータル2万480個、演算性能はFP16で110PFに達する。そして必要なら複数ラックをつないでさらに大規模な構成を構築することも可能だ。

2ラックの例。そもそも縦横方向のレーンはまだ余っているので、2次元式にラックを増やすことも理屈上は可能である

 そして内部は、レイヤーの複雑さに応じてTensixコアの塊を任意のパーティションに区切ってそれぞれ処理させることで効率を上げられるとする。

1つのTensixで複数レイヤーの処理をさせるのはオーバーヘッドが大きすぎるのでこれは合理的ではあるのだが、逆に言えば小規模なWormholeの構成では不効率さが目立つことになる。Nebulaでもまだ不十分で、Galaxyクラスでやっと効率的に処理できるようになる、というあたりだろう

 昨年2月の時点ですでに最初のサンプルはできあがっていたようで、予定では2022年第4四半期に出荷という話であったが、今のところまだ発表がないあたりはやや遅れているようだ。

Wormholeのモジュール。こちらも製造はTSMCの12nmである

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン