情報少ないBobcat その構造を予測する
![]() | AMDが公開したBobcatの概要 |
|---|
最後にモバイル向けの新コア「Bobcat」である。2007年、当時AMDのCTOだったフィル・ヘスター(Phil Hester)氏に話を聞いたときには、「基本的には非常に単純なアーキテクチャーを用いる予定で、性能を引き上げるのに複雑なアーキテクチャー、例えば投機予測とか複雑な分岐予測とかを採用する予定はない」とのことだった。
ヘスター氏はさらに、「非常に小さく、トラディッショナルなx86コアだ。消費電力を抑えるような異なる実行ユニットを持つ、クラシカルだがハイレベルなx86コアだと言っておこう」と述べたが、実際に出てきたものは意外にも比較的新しい(アウトオブオーダーはすでに古典的技術なのかもしれないが)構造だった。
Bobcatコアの設計目標は、「1W未満の消費電力」と「性能をそれほど落とさずにダイサイズを半分に」というあたりである。先にPropusのダイサイズを約16.6mm2と紹介が、同じ45nm SOIプロセスならば約8.3mm2に抑えようというわけだ。
約8.3mm2という数字はかなり小さいように思うが、恐らくBobcatと競合するであろう他社の組み込み向けプロセッサーは、もっと小さい。例えば英ARM社の「Cortex-A8」は、65nmプロセスで3mm2未満、キャッシュを入れても4mm2未満とされており、45nmプロセスで作れば恐らく2mm2以下になるだろう。
もちろんARM並みまで縮小する必要はないだろうし、BobcatコアとGPUを統合したCPU「Brazos」の競合は、同じくAtomにGPUを統合した「Pineview」になるだろうから、逆に言えば「Atom程度の性能とダイサイズで収まれば十分勝負できる」という事になる。
さて、スライドから構造を見てみると、K7というよりもK6を想像するような構造になっている。インテルのAtomの場合、インオーダー・2命令発行ながら事実上1命令/サイクルとなるパイプラインを2GHzでまわしている。一方Bobcatの場合は、2命令/サイクルのアウトオブオーダーで恐らく2命令/サイクルとなるパイプライン構成となっており、動作周波数は1GHz程度になると思われる。
![]() | Bobcatの内部構造図(筆者による推定) |
|---|
実のところ、BobcatについてはFinancial Analyst Dayでも、ほとんど解説がなかった(解説がBulldozerに集中していたため)が、構造からすると恐らく上図のような構造であろう。1次キャッシュ→プリフェッチ→フェッチは8Byte/サイクル程度で、デコードは2命令/サイクルで動作し、これを(MacroOpは使わずに)直接Opに変換する形になると思われる。
ALUは完全に独立で動くが、ロード/ストアユニットは(実行ユニットは分かれているものの)ひょっとすると同時には動かない(1次データキャッシュは同時1アクセスしかできない保守的なものになる)と思われる。FPUに関しては、64bitのADDとMULが分離されたものになり、SSE実行時には2つのパイプがそれぞれ動いて合計128bit演算を行なうものになるのではないかと想像する。恐らく、性能的には同一周波数の「K6-2」あたりよりやや落ちると想像される。分岐予測などのメカニズムはあまり搭載しないと思われるので、これによる性能低下が見込まれるためだ。
余談になるが、K6-2は0.25μmプロセスで135mm2程度のダイサイズだった。これを、単純に「プロセスが1世代進むとダイサイズが半分になる」と仮定すると、45nmでは8.4mm2程度になる計算だ。実際はここまできっちり半分にはならないから、もう少し大きく10mm2程度になるだろうか。だからといって、K6-2コアを引っ張り出してそのまま使うわけにはいかないのだろうが、Bobcatの目標と思われる8.3mm2に近いのは、なかなか興味深いところだ。
今回のまとめ
・2011年のCPUコア「Bulldozer」の構造を推測した。HTとは異なる仕組みで2スレッドを同時に実行できるほか、ALUとAGUの変更、MacroOpの扱いの改良により、同一周波数での性能は現行のK10世代より下がる可能性がある。
・構造変更の理由には、ダイサイズが関係するとみられる。K10まであった無駄を減らして、ダイサイズや消費電力を削減しようと考えたのではないか。同様に、2スレッド間でFPUを共有するのも、トランジスター数を節約してダイサイズ削減に貢献する。
・Bobcatに関する情報は少ないが、ARM系組み込みCPUやAtomへの対抗を目指す。古典的なコアをベースに、ダイサイズを約8.3mm2ほどに縮小する。分岐予測など複雑な仕組みは持たず、同一周波数ではK6-2世代よりやや性能で劣ると思われる。
この連載の記事
- 第111回 アーキテクチャーから予測するBulldozerコアの性能
- 第110回 バスの歴史を振り返る PCI Expressと関連規格を総ざらえ
- 第109回 バスの歴史を振り返る PCIからAGP、PCI-X編
- 第108回 LlanoからTrinityへ 2011~2012年のAMD CPU
- 第107回 バスの歴史を振り返る EISA~VL Bus編
- 第106回 バスの歴史を振り返る XT Bus~ISA Bus編
- 第105回 IBM PC BusからPCI Expressまで PC用拡張バスの歴史
- 第104回 Mobile RAMからWideIOへ モバイル向けメモリーの進化
- 第103回 PS3で初採用 次世代GPU用メモリーも狙うXDR DRAM
- 第102回 グラフィック専用メモリーの進化と不透明な今後
- この連載の一覧へ
















