速度を大幅に高速化し、
メモリーもDDRからDDR2に変更
BlueGene/Pは、PowerPC 450コア(+FPU)を4組組み合わせたマルチプロセッサー構成である。その概略が下の画像で、各々のコアには2次キャッシュが搭載されている。
ちなみに、いくら探してもこの2次キャッシュの容量が記載されていないのだが、後述のダイ写真から推定すると16KB程度だろう。そのダイ写真を見ると2次キャシュが共有のように見えるが、実際にはコア毎に個別になっており、かつそれぞれスヌープユニットが付きキャッシュのスヌーピングを処理しているようだ。
2次キャッシュを含めたチップ全体の構造が下の画像で、2コアづつまとめてMultiplexing Switchを通して、共有SRAMや4MB×2の3次eDRAMに接続されるといった構造は、多分にBlueGene/Lのチップの構造を部分的に継承しているためだろう。
ただ、下にあるBlue Gene/Lのチップ構造と比較するとわかるが、外部とのリンクに関しては数そのものは同じだが、速度は大幅に高速化されており、メモリーもDDRからDDR2に変更されるなど性能の底上げに貢献している。
もっとも1つのチップあたりのコア数は倍増しているので、このくらい性能を上げないと辻褄が合わないということかもしれない。
さてそのダイが下の画像である。全体としてはかなりよく頑張ったというか、苦労して収めた感じがよくわかる。
先の2次キャッシュがコアあたり16KBというのは、この写真における2次キャッシュ領域のSRAMアレイの面積を、PowerPCコアの1次キャッシュと思しきSRAMアレイと比較しての考察である
プロセスは90nm銅配線のCu-08を利用し、850MHz動作で16Wとなっている。ダイサイズ173mm2、トランジスタ数2億800万というのは、同じ90nmプロセスを使ったインテルのPentium 4が112mm2でトランジスタ数1億2500万個と比較すると、トランジスタ密度は同程度である。
ただしPentium 4が3.4GHzまで動作周波数が上がる代わりにTDPは89W、他方BlueGene/Pは850MHzに抑えてTDPは16Wである。SIMD演算を除外して純粋にFPUの性能を比較すると、倍精度演算の場合Pentium4は3.4GFLOPS、一方BlueGene/Pは13.6GFLOPSということで、ダイサイズこそやや大きめながらBlueGene/Pの性能の高さや性能/消費電力比の良さがわかる。
→次のページヘ続く (ほぼ2倍のプロセッサー密度を実現)
この連載の記事
-
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ