ロードマップでわかる!当世プロセッサー事情 第852回
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現
2025年12月01日 12時00分更新
Tensor Coreの構造は、TPU v3に類似しているが
XLUとSparseCoreが追加されている
Ironwoodの内部構造が下の画像だ。個々のTensor Coreの構造は、TPU v3のものに似ているが、TPU v3に見当たらないのがXLUである。これはCross Lane Unitの略で、TPU v4世代で追加されたものだが、単純に言えばVmem(Vector Memory)の転置やシャッフルといった並び替えをするためのエンジンである。
同様にTPU v3までになかったものにSparseCoreが挙げられる。こちらの構造が下の画像で、おのおの16個のタイルからなり、事前学習あるいは強化学習の微調整の際の演算オフロード、大規模レコメンデーションモデル向けの埋め込み処理などを担当する。
実際にはこのIronwoodが4枚乗ったボードが利用されており、つまり16枚のIronwood Trayで1つのキューブを実装する形になる。Ironwoodだけなら結構実装密度を高められそうだが、実際にはCPU ホストのシャーシと対になる形で収められている。
ラック1本にはIronwood Trayが16枚、Ironwoodが64チップとなり、つまりラック1本で1つのキューブを構成する形だ。したがって、9216チップのSuperPodを構成するためには、ラックが144本必要になる計算だ。実際データセンターの写真を見ると、なかなか壮観である。
おもしろいのが電力に関する話である。複数の処理が走っている際には常時稼働状態が続くとはいっても、ミクロで見ると細かく休止状態が入ることは珍しくない。その場合、Photo02でいうところのJobに属するすべてのキューブが一斉に稼働したり休止したりするので、1個1個で言えば160W程度であってもラック単位では20KW、Job単位ではMW規模で消費電力が変動する。
これをもう少し平滑化するための試みとしてGoogle Project Smoothieというプロジェクトが進行中であり、Ironwoodもこれに対応したハードウェアおよびソフトウェアが実装されているとされる。
具体的には、TPUコンパイラの中に計測用のStubを埋め込んでおき、適当なタイミングで電力変動に関するワークロードの主要な指針(具体的になにかは未公開)を測定する。その結果を基に、演算ブロックの稼働状況を動的に調整して、時間経過にともなう利用率を平滑化するとしている。
素人考えには、処理の区切りがつきそう、例えば畳み込みが終わって全結合に入ることを検出して、その少し手前から動作周波数を落とすといったことが思いつくが、本当にそういう実装なのかどうかは不明である。
ちなみにIronwoodは学習から推論まで幅広く利用できるとしているが、推論はともかく学習でFP8のまま行けるのかは不明だ。ただBF16のサポートに関しては今のところ明示されていない(可能/不可能のレベルで不明)。
Ironwoodのチップの原価そのものはBlackwellとそう変わらない(Blackwellも2ダイ+8×HBM3e構成である。SerDesチップレットがある分若干割高な程度)が、性能消費電力比を大幅に引き上げることに成功した。
SuperPodそのものは9216チップが上限だが、複数のSuperPodをスケールアウト的に接続することは可能であり、10月にはAnthropicが100万個規模のIronwoodを使う計画があることが明らかにされている。
したがって、Blackwell同様にこちらもスケールメリットによる価格低減の効用はしっかり受けていると考えられ、販売価格そのものもBlackwellより安くても不思議ではない。
おまけに昨今のデータセンターでは供給電力量が問題になりつつあるご時世だけに、チップ単価よりもこの性能消費電力比(≒ランニングコスト比)がBlackwellより大幅に良い、というあたりがIronwoodの最大のメリットである。Metaが導入を決めたのもこのあたりが理由なのかもしれない。

この連載の記事
-
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ

















