Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現

2025年12月01日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

Tensor Coreの構造は、TPU v3に類似しているが
XLUとSparseCoreが追加されている

　Ironwoodの内部構造が下の画像だ。個々のTensor Coreの構造は、TPU v3のものに似ているが、TPU v3に見当たらないのがXLUである。これはCross Lane Unitの略で、TPU v4世代で追加されたものだが、単純に言えばVmem(Vector Memory)の転置やシャッフルといった並び替えをするためのエンジンである。

SerDesタイルは、1ページ目最後の画像でいうところのキューブ内部の接続に利用する。上下左右前後にそれぞれ2本ずつのリンクが必要なので、合計6本というわけだ

　同様にTPU v3までになかったものにSparseCoreが挙げられる。こちらの構造が下の画像で、おのおの16個のタイルからなり、事前学習あるいは強化学習の微調整の際の演算オフロード、大規模レコメンデーションモデル向けの埋め込み処理などを担当する。

SparseCore1個あたり16タイルからなり、おのおのが独立して動作する。Tensor Coreとも独立して動作する仕組みである

　実際にはこのIronwoodが4枚乗ったボードが利用されており、つまり16枚のIronwood Trayで1つのキューブを実装する形になる。Ironwoodだけなら結構実装密度を高められそうだが、実際にはCPU ホストのシャーシと対になる形で収められている。

Ironwoodトレイそのものは1Uで収まる規模に見える。OSFPはキューブを構成する16枚のIronwoodトレイの相互接続用であろう。残り2つの用途はよくわからない

消費電力が低めなので、電源供給用のサイドカーは不要のようだ。先程の試算でも20KWくらい。多めに見積もっても30KW程度で、普通のデータセンターに楽に設置できる計算になる

　ラック1本にはIronwood Trayが16枚、Ironwoodが64チップとなり、つまりラック1本で1つのキューブを構成する形だ。したがって、9216チップのSuperPodを構成するためには、ラックが144本必要になる計算だ。実際データセンターの写真を見ると、なかなか壮観である。

この一列で9キューブ分なので、これが16列並ぶ。なかなか壮観である

画像の出典はGoogle Cloud blogから

　おもしろいのが電力に関する話である。複数の処理が走っている際には常時稼働状態が続くとはいっても、ミクロで見ると細かく休止状態が入ることは珍しくない。その場合、Photo02でいうところのJobに属するすべてのキューブが一斉に稼働したり休止したりするので、1個1個で言えば160W程度であってもラック単位では20KW、Job単位ではMW規模で消費電力が変動する。

　これをもう少し平滑化するための試みとしてGoogle Project Smoothieというプロジェクトが進行中であり、Ironwoodもこれに対応したハードウェアおよびソフトウェアが実装されているとされる。

ミリ秒から分の規模まで休止状態はさまざまだが、1つのJobそのものは数ヶ月単位のものもある、というのがすごい

　具体的には、TPUコンパイラの中に計測用のStubを埋め込んでおき、適当なタイミングで電力変動に関するワークロードの主要な指針(具体的になにかは未公開)を測定する。その結果を基に、演算ブロックの稼働状況を動的に調整して、時間経過にともなう利用率を平滑化するとしている。

　素人考えには、処理の区切りがつきそう、例えば畳み込みが終わって全結合に入ることを検出して、その少し手前から動作周波数を落とすといったことが思いつくが、本当にそういう実装なのかどうかは不明である。

　ちなみにIronwoodは学習から推論まで幅広く利用できるとしているが、推論はともかく学習でFP8のまま行けるのかは不明だ。ただBF16のサポートに関しては今のところ明示されていない(可能/不可能のレベルで不明)。

　Ironwoodのチップの原価そのものはBlackwellとそう変わらない(Blackwellも2ダイ+8×HBM3e構成である。SerDesチップレットがある分若干割高な程度)が、性能消費電力比を大幅に引き上げることに成功した。

　SuperPodそのものは9216チップが上限だが、複数のSuperPodをスケールアウト的に接続することは可能であり、10月にはAnthropicが100万個規模のIronwoodを使う計画があることが明らかにされている。

　したがって、Blackwell同様にこちらもスケールメリットによる価格低減の効用はしっかり受けていると考えられ、販売価格そのものもBlackwellより安くても不思議ではない。

　おまけに昨今のデータセンターでは供給電力量が問題になりつつあるご時世だけに、チップ単価よりもこの性能消費電力比(≒ランニングコスト比)がBlackwellより大幅に良い、というあたりがIronwoodの最大のメリットである。Metaが導入を決めたのもこのあたりが理由なのかもしれない。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ

この連載の記事

ASCII倶楽部

Amazon売れ筋ランキング「ノートパソコン」（在庫あり）

Apple 2026 MacBook Neo A18 Proチップ搭載13インチノートブック：AIとApple Intelligenceのために設計、Liquid Retinaディスプレイ、8GBユニファイドメモリ、512GB SSDストレージ、1080p FaceTime HDカメラ、Touch ID - インディゴ

￥110,162

Apple 2026 MacBook Air M5チップ搭載13インチノートブック：AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、Touch ID - スカイブルー

￥177,333

Lenovo Chromebook クロームブック IdeaPad Flex 3i Gen8 12.2インチインテル® プロセッサー N100搭載メモリ4GB eMMC 64GB バッテリー駆動12.0時間重量1.25kg アビスブルー 82XH001KJP

￥46,700

【整備済み品】富士通ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄ノートPC/第10世代 Core i5-10310U＠1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載ビジネス在宅勤務向けパソコン (メモリ：8GB／SSD：256GB)

￥36,970

【整備済み品】ノートパソコン東芝 G83 13.3インチ FHD 軽量第10世代Core i5-10210U/Windows 11 Pro/MS Office 2021搭載/初期設定不要/Wifi/Bluetooth/HDMI/Type C/LANポート/SDカードスロット (Corei5-10th,メモリ8GB, SSD256GB)

￥32,880

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII.jpからのお知らせ

一覧へ

Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現

Tensor Coreの構造は、TPU v3に類似しているが XLUとSparseCoreが追加されている

この連載の記事

この記事の編集者は以下の記事をオススメしています

PC d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現

PC 消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来

PC ロードマップでわかる！当世プロセッサー事情（目次）

注目ニュース

ピックアップ

Tensor Coreの構造は、TPU v3に類似しているが
XLUとSparseCoreが追加されている

PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現

PC
消えたTofinoの残響　Intel IPU E2200がつなぐイーサネットの未来

PC
ロードマップでわかる！当世プロセッサー事情（目次）