このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第575回

インテルから消えたNervanaと入れ替わったHabana Labs AIプロセッサーの昨今

2020年08月10日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Lake Crestの後継となる
深層学習用プロセッサーSpring Crest

 さてそのSpring CrestことNNP-Tは、2つのTensor Coreを組み合わせたTensor Core Cluster(TPC)を24個搭載。PCI ExpressもGen4としたほか、メモリーを2.5MBに増やしている。製造プロセスはTSMCの16FF+を利用、ダイサイズは680mm2とされる。

Spring CrestことNNP-Tの概要。実質的にはコアの数がLake Crestの4倍になった計算である

HSIOはHigh Speed I/Oで、外部リンクをこれでまかなうと思われる

 下の画像はTPCの内部構造で、2つのTensor Processorとローカルメモリー、Convolution Engineなどを共有する構造になっている。

TPCの内部構造。Local Memory Blockは複数バンクに分割されているようだが、サイズなどは不明

 個々のTensor ProcessorはBFloat16の演算ユニットを32×32個アレイ状に配した構成で、1サイクルあたり2048演算(乗算+加算)が可能である。

Tensor Processorの構成。BFloat16のユニットを2つ組み合わせてFP32もサポートできる模様。当然その場合性能は半減する

 1TPCあたりなら1サイクルあたり4096演算。これが24個で、1.1GHz駆動ということで 1.1GHz×24×4096=108.1344TOPsとなる。

 さらに、TPCの共有部にはConvolution Engineが専用に搭載されており、これは上の画像のCompute Unitとは並行して稼働するようなので、これの処理分も含めると119TOpsという数字になるのだと思われる。

 なおそれぞれのTPCは2Dメッシュ構成での接続になっており、すべての周辺機器やI/Oに均一にアクセス可能になっている。

ここでRing Busではなく本当にBi-DirectionalなLinkを使っているあたりで、インテルではなくNervanaの設計だなという気がする

 またスケーラビリティーにも配慮されており、最大1024ノードまでの接続が可能とされる。ちなみに性能の一端も公開された。

これは、3枚目の画像に出てくるような評価ボード8枚を1つのシャーシに入れることを前提にした模式図と思われる。ちなみに1つのシャーシ内に8ノードで、これ全体だと32ノードという計算になると思われる

NNP-Tの性能。サイズに応じて学習の効率が変わるが、小さくても大きくてもなかなか性能が出ないので、HBMの容量をにらみながらサイズを決める必要があるという話。ちなみにピークでも57.4%というのは、もう少しなんとかならなかったものか?

Convolutionの効率。こちらは専用ユニットを設けていることもあってか、どのケースでもそれなりに効率が高い

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン