CNN(畳み込みニューラルネットワーク)が実用になる、という話で2013年あたりから活発に業界がそちらに向けて動き始めたという話は過去3回でしてきたが、これに向けた専用プロセッサーの先鞭をつけたのはGoogleだった。
性能/消費電力比が競合と比べて10倍優秀
GoogleのAI向けプロセッサー「Google TPU」
2016年5月に開催されたGoogle I/Oの基調講演で、GoogleはGoogle TPUを発表。絶対性能はともかくとして、性能/消費電力比が競合と比べて10倍優れていると説明した。
競合はおそらくNVIDIAのGPUだが、2016年5月はまだPascalが前月にリリースされたばかりなので、世代的にはMaxwellが競合となる。ただデータセンター向けのTeslaでは28nmプロセスのKeplerベースが最新であり、これとの比較とこの時点では思われた。
Google TPUもやはり同じ28nmプロセスで製造されており、アーキテクチャーを工夫することで10倍の効率を実現したというわけだ。
基調講演では、Google TPUがすでに稼働中であり、Google検索の要であるPageRankを評価するRankBrainやGoogle Street View、さらにはAlphaGoなどにも使われていることが明らかにされた。
そのGoogle TPUであるが、2017年6月に開催されたISCA(International Symposium on Computer Architecture)において“In-Datacenter Performance Analysis of a Tensor Processing Unit”という論文で詳細が明らかにされた。
下の画像がその全体像である。計算部となるのは、256×256で65536個並んだMAC演算ユニットと、そのMAC演算の後処理で加算を行なうアキュムレーターである。もっともこれ、65536個のMACユニットが同時に演算できるわけではなく、言ってみれば256サイクルかけて出力されるようなイメージである(実際はもう少し早い)。
つまり256組の256 MAC演算ユニットがあるかたちだ。1サイクルあたりに出力される結果は1組分であり、パイプライン動作をしている格好だ。ただそれでも毎サイクルあたり256Bytesのデータ処理が行なわれるわけで、それに見合ったデータ転送性能が必要である。
例えば連載562回で例として掲載した図を例にとると、もともとの画像データはSystolic Data Setupと呼ばれるユニットから、フィルターのデータはWight FIFO(Weight Fetcher)と呼ばれるユニットから供給され、乗算→加算→活性化→プーリングを経てUnified Bufferに戻される。
このSystolic Data Setupと64KのMatrix Multiply Unit、およびNormalized/PoolとUnified Bufferの間は、256Bytes(=2048bit)幅のバスでつながっている。
要するに1サイクルあたり256Bytesの元データ読み込みが可能で、一方演算結果も同じく256Bytes/サイクルでUnified Bufferに書き戻せる構造になっている。ちなみにそのMAC Unitの下にあるアキュムレーターは、1サイクルで256個の演算結果の合計を計算可能になっている。
このTPUがどれだけスムーズに動作するかは、どれだけ切れ目なくデータをMACユニットに送り出し、かつ結果を受け取れるかにある。このため、Unified Bufferは24MB、アキュムレーターは4MBの容量を持っている。
チップ内部のレイアウトは下の画像の通りで、バッファがかなり大きな容積を喰っているのがわかる。ただ24MBはキャッシュとしては十分であっても、システム全体のメモリーとしては不十分である。
これを支えるためにDDR3-2133×2chのメモリーが合計32GB搭載され、これで足りなければPCI Express経由でホストのメモリーを利用できるかたちだ。ちなみにヒートシンクの陰に隠れていた基板が下の画像だ。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ

















