連載622回でGraphcoreのIPUを紹介した。そのGraphcoreが、今年3月3日に第3世代のIPUであるBOWを発表した。
このBOW、TSMCのSoIC-WoWを使って製造されたチップとなっている。ただSoICの使い方があまりに斬新すぎるので、今回はこのBOWを紹介したい。
IPU Mk2から40%性能が向上し
価格はIPU Mk2と同じという「BOW」
そもそもBOWの名前の由来について一切説明がない(まさかRed君の鳴き声というわけでもないと思うのだが……)のだが、そのBOW IPUの概略が下の画像だ。
IPU Mk2とスペックを比較してみると、とりあえず“3D Silicon wafer stacked processor”を置いておくとして、以下のようになっており、ハードウェア的には基本一緒である。
IPU Mk2とBOW IPUの比較 | ||||||
---|---|---|---|---|---|---|
性能 | 250TFlops→350TFlops | |||||
メモリー容量 | 900MB→0.9GB(要するに変わらず) | |||||
メモリー帯域 | 47.5TB/秒→65TB/秒 | |||||
IPU Core数 | 1472→1472(変わらず) | |||||
プログラム実行数 | 8832→8832(変わらず) | |||||
IPU Links | 10x 320GB/秒→10x 320GB/秒(変わらず) |
では性能やメモリー帯域の違いは? という話だが、動作周波数が1.35GHz→1.85GHzと37%ほど向上しており、これが性能向上(40%)やメモリー帯域向上(36.8%)につながった。
この結果として、主要なアプリケーションについて、軒並み30%台の向上が得られたというのが同社の説明である。
IPU Mk2(グラフではIPU-POD Classicと表現されている)とNVIDIA DGX A100の比較結果は連載622回で紹介した通りで、例えばRESNET-50の学習時間を比較するとDGX A100が28.77分、対してIPU-POD16では37.12分だったのが、これが1.32倍高速になって28.12分程度にまで高速化される計算になり、DGX A100と同程度のピーク性能でありながら、価格は半額のまま据え置きで、性能/価格比は2倍まで向上、というのが同社の説明である。ちなみにBOW IPUは価格がIPU Mk2とまったく一緒である、とされている。
ところでどうやって性能を向上させているか? であるが、構造を変えずにIPUを作り替えた(例えばTSMC N6に移行した)という話か? と思ったら、“BOWのダイは、IPU Mk2とまったく一緒(exact same)だ”という説明があった。
それでは3D Stackingはどこに出てくるのだ? となるわけである。通常3D Stackingと言えば、ロジックプロセスないしSRAMを積層するという話が思いつく。ただIPUの数は同じなのでロジックの積層はあり得ないし、SRAMを積層すればメモリーが増えるわけで、これもない。これに関しての同社の説明が下の画像だ。
この図では上下がひっくり返しになっているが、要するにIPU Mk2のダイをそのままに、従来だったらC4 Bumpの形でBallが出ていたところを一度取り去り、そこにウェハーを挟んで、その上にC4 Bumpを改めて構成した格好だ。
間に挟まっているウェハーであるが、その中身はBTSV(Back-side Thought Silicon VIA)とDTC(Deep Trench Capacitor)である。BTSVは、IPU Mk2から出た信号をC4 Bumpまで伝えるのが仕事である。DTCは、シリコンに溝を掘りそこをコンデンサーとして使う技法で、eDRAM(Embedded DRAM)などでも利用されているものである。現在のDRAMはDTCで構成されているので、その意味ではDRAMそのものと誤解しそうである。
これを見て「トップウェハーにeDRAMを積層したという理解でいいのか?」といった質問が殺到したが、答えはNo。なんと同社はこのDTCを、パスコン(バイパスコンデンサー)として使うという、前代未聞の実装を披露してくれた。
この連載の記事
-
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 - この連載の一覧へ