2011年の新CPUコア「Bulldozer」「Bobcat」の姿

2010年01月11日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）

Bulldozerの内部構造図(筆者による推定)

Bulldozerの設計方針を探る　鍵はトランジスター技術とコストか

　ではなぜAMDはそんな変更をしたのか？　ひとつにはAMDのダイサイズが、同時期のインテルCPUのダイサイズに比較して大きいということが挙げられる。その理由の半分は、プロセス微細化でインテルが先行していることが挙げられる。

　以下の写真は、左からPropus(Athlon II X4)、Nehalem、Penrynのダイ写真である。赤または青で薄くマスクされている部分は、1コア分のサイズを示す。

Propus(K10)

Nehalem

Penryn

　発表されているそれぞれのダイサイズと、写真から換算した1コアあたりのダイサイズは、以下のようになる。ただし、Nehalemは各コアに256KBの2次キャッシュを含んでいることに注意。Propus/Penrynでは、各コアは1次キャッシュのみ。

Propus(K10)　169mm²/約16.6mm²
Nehalem　258mm²/約27.3mm²
Penryn　107.6mm²/約25.6mm²

　同じ45nmプロセスでそろえると、K10のコアはそれほど大きくない。ところが、実際にはインテルが1年ほどプロセス微細化で先行しているので、実際にはAMDのダイは2倍相当と見なさなくてはならないことになる(インテルはすでに32nmのWestmereの投入を開始している)。

　もうひとつ無視できないのは、スレッドの数である。Penrynはともかく、Nehalemはハイパースレッディングテクノロジーを使うことで、2スレッド実行を27.3mm²のコアで実現しているが、Propusはあくまで1スレッドである。このあたりを勘案すると、ダイサイズをもう少し削らないとインテルとの価格面での遅れが縮まらない。ダイサイズの大きさはそのまま消費電力の多さにもつながる(静的なリーク電流はトランジスター数に比例して大きくなるので、「トランジスター数の多さが消費電力増大につながる」というのが正確な言い方だろう)。もう少し設計を効率化しないといけない。

　こうした観点から言うと、常時動いているとは限らない「ALU＋AGU」のペアを3組も抱えているよりも、独立して動く「ALU×2」と「AGU×2」の方が、消費電力的にもダイサイズ的にも効果的であると判断したと思われる。

FPUは2スレッドで1基を共有

　Bulldozerのもうひとつの特徴が、浮動小数点演算ユニット(FPU)を2スレッドで共用するという仕組みだ。ごく一部、つまり「ハイパフォーマンスコンピューティング分野」(HPC)に代表されるような用途を除くと、FPUが激しく動くというケースはあまりない。強いて言えばエンコーダーなどで複数ストリームを同時エンコードするケースだろうか。利用頻度は非常に少ないといえるが、だからと言って互換性のためには削るわけにもいかない。

　そこでFPUをスレッド間で共用にすることでトランジスターを節約しよう、という発想である。Bulldozerの世代では、インテルの新しい拡張命令「AVX」と互換性のある「FMA4 and CVT16」が搭載されるという話はすでに紹介した(関連記事)。構成を見ると、FPUに実行ユニットが2つ用意されているあたり、恐らくそれぞれがFPUやSSEをサポートした128bitの演算ユニットで、「FMA4 and CVT16」の実行時は、2つのユニットが共同で動くことで256bit演算を行なうと想像される。

　ここでちょっとポイントになるのは、「BulldozerではFPU/SSE/AVXレジスターがどこに置かれるか」である。2つのスレッドがどちらもSSE/AVX演算を行なうケースは当然ありえるから、各整数演算ユニット側にそれぞれFPU/SSE/AVXレジスターが置かれ、FPUがこれにアクセスする形になると思われる。そのため、SSE/AVX演算などに関しては、従来のK10までに比べて遅延が多少長くなる可能性はありそうだ。

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ