AMDやNVIDIAのGPUに近い内部構造
さてそのBR100の内部構造が下の画像だ。それぞれのダイには16個のSPC(Streaming Processing Cluster)が搭載され、それとは別にHBM2eのI/F×2とPCIe I/F、BLink I/F、そしてなぜかビデオエンコーダー/デコーダーが搭載されている。
今回このエンコーダー/デコーダーの詳細は公開されていないが、製品ページによれば1ダイのBR104は32ch H.264/HEVCエンコーダーと256ch H.264/HEVCデコーダー(どちらもFHD@30fps)、2ダイのBR104はそれぞれ64ch/512chとなっている。それなりに強力には見えるが、4K@30fps相当で考えればBR104が8ch/64ch、BR100が16ch/128chという計算で、コンテンツ配信ネットワーク向けにはもう少し性能が欲しい感じもする。
話を本体に戻すと、個々のSPCの内部には16個のEUが含まれている。個々のEUには16個のV-Coreと1個のT-Coreが含まれている格好だ。V-Coreは通常のVectorというかSIMD演算ユニット、T-CoreはMatrix演算ユニットに相当すると考えるのが正しいところだろう。
ただ演算はSIMDというよりはSIMT的な動作のようで、複数のスレッドをWarpという単位で管理しているあたりは、AMDやNVIDIAのGPUに近いと言える。ちなみにT-Coreとは別にTDA(Tensor Data Accelerator)が搭載される。
あと、1つのSPC(=16EU)ごとに8MBの2次キャッシュが搭載されるとしている。ということは、ダイ全体で言えば128MBの2次キャッシュが搭載されている格好で、これはかなり巨大である。
個々のV-Coreの説明が下の画像だ。といっても概念的な部分であって、肝心の演算ユニットの詳細などは明らかにされていない。やや意外だったのは、V-CoreはINT 8をサポートしないことで、INT16/32とFP16/32のサポートのみである。また32SPCで最大128Kスレッドをサポートというのもすごい数字であって、つまり1個のSPCあたり4Kスレッドを扱えるという話である。
1 Warpがどの程度のスレッドを扱えるのか不明だが、普通に考えればEUの数に合わせるのが妥当で1 Warp=16スレッドということになるのだが、実は後述するように32スレッドになっている。
ということは128個のWarpを1つのEUでハンドリングできることになるのだが、少しこれは多くないだろうか? という気もしなくはない。またV-Coreはスタティック及びダイナミックなスーパースカラーを実装、というのも不思議な部分だ。
スタティックの方はともかく、ダイナミックなスーパースカラーといっても、そもそもスーパースカラー的になにを動かすのか? が今1つわからない 。
可能性としてあるのは、下の画像を見るとLSU(Load/Store Unit)が存在していない。思うに個々のV-CoreにはINT/FPの演算ユニットとLSUがそれぞれ搭載しており、この演算ユニットとLSUが個別に動作可能なのでスーパースカラーと言っているような気がする。
ちなみにこのWarp、必要に応じて中でダイナミックに動作を切り替えられるとしている。下図右側の構成は珍しいというか、プログラミングの難易度が上がりそうな気がする。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ