AMDやNVIDIAのGPUに近い内部構造
さてそのBR100の内部構造が下の画像だ。それぞれのダイには16個のSPC(Streaming Processing Cluster)が搭載され、それとは別にHBM2eのI/F×2とPCIe I/F、BLink I/F、そしてなぜかビデオエンコーダー/デコーダーが搭載されている。
BR100の内部構造。L2の“Build-in reduction engine”に関しては最後のスライドで説明する。またSPCの内部のEUの数は4/8/16と変更できるらしい(動的に、という意味ではなく将来は下位グレードの製品を作り分けられる、という意味)
今回このエンコーダー/デコーダーの詳細は公開されていないが、製品ページによれば1ダイのBR104は32ch H.264/HEVCエンコーダーと256ch H.264/HEVCデコーダー(どちらもFHD@30fps)、2ダイのBR104はそれぞれ64ch/512chとなっている。それなりに強力には見えるが、4K@30fps相当で考えればBR104が8ch/64ch、BR100が16ch/128chという計算で、コンテンツ配信ネットワーク向けにはもう少し性能が欲しい感じもする。
話を本体に戻すと、個々のSPCの内部には16個のEUが含まれている。個々のEUには16個のV-Coreと1個のT-Coreが含まれている格好だ。V-Coreは通常のVectorというかSIMD演算ユニット、T-CoreはMatrix演算ユニットに相当すると考えるのが正しいところだろう。
ただ演算はSIMDというよりはSIMT的な動作のようで、複数のスレッドをWarpという単位で管理しているあたりは、AMDやNVIDIAのGPUに近いと言える。ちなみにT-Coreとは別にTDA(Tensor Data Accelerator)が搭載される。
あと、1つのSPC(=16EU)ごとに8MBの2次キャッシュが搭載されるとしている。ということは、ダイ全体で言えば128MBの2次キャッシュが搭載されている格好で、これはかなり巨大である。
個々のV-Coreの説明が下の画像だ。といっても概念的な部分であって、肝心の演算ユニットの詳細などは明らかにされていない。やや意外だったのは、V-CoreはINT 8をサポートしないことで、INT16/32とFP16/32のサポートのみである。また32SPCで最大128Kスレッドをサポートというのもすごい数字であって、つまり1個のSPCあたり4Kスレッドを扱えるという話である。
TLR(Thread Local Register)の40Kは、普通に考えると十分なのだが、1つのEUで4Kスレッドを扱うことを考えると、もう少し大きくても良いような気もする。多少大きくしたところでスレッドの入れ替えが煩雑に行なわれると結局TLRの入れ替えも煩雑にならざるを得ないから、割り切ったのかもしれない
1 Warpがどの程度のスレッドを扱えるのか不明だが、普通に考えればEUの数に合わせるのが妥当で1 Warp=16スレッドということになるのだが、実は後述するように32スレッドになっている。
ということは128個のWarpを1つのEUでハンドリングできることになるのだが、少しこれは多くないだろうか? という気もしなくはない。またV-Coreはスタティック及びダイナミックなスーパースカラーを実装、というのも不思議な部分だ。
スタティックの方はともかく、ダイナミックなスーパースカラーといっても、そもそもスーパースカラー的になにを動かすのか? が今1つわからない 。
可能性としてあるのは、下の画像を見るとLSU(Load/Store Unit)が存在していない。思うに個々のV-CoreにはINT/FPの演算ユニットとLSUがそれぞれ搭載しており、この演算ユニットとLSUが個別に動作可能なのでスーパースカラーと言っているような気がする。
ちなみにこのWarp、必要に応じて中でダイナミックに動作を切り替えられるとしている。下図右側の構成は珍しいというか、プログラミングの難易度が上がりそうな気がする。

この連載の記事
-
第854回
PC
巨大ラジエーターで熱管理! NVIDIA GB200/300搭載NVL72ラックがもたらす次世代AIインフラの全貌 -
第853回
PC
7つのカメラと高度な6DOF・Depthセンサー搭載、Meta Orionが切り開く没入感抜群の新ARスマートグラス技術 -
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 - この連載の一覧へ













