CPU黒歴史 インテルを慌てさせたK8 製造でつまずく

文●大原雄介(http://www.yusuke-ohara.com/)

2011年10月31日 12時00分

「SledgeHammer」こと0.13μm SOIプロセスで製造された第1世代Opteron(写真はOpteron 242)

 CPU黒歴史AMD編の第3弾は、「SledgeHammer/ClawHammer」のコード名でおなじみの、第1世代の「K8」アーキテクチャーの話である。K8世代はおおむね成功を収めたと言え、そのおかげか今では忘れられているのだが、出だしの第1世代は散々だった。

99年に発表されるはずが
2002年までずれこんだHammer

 K8ことHammerの構想が最初に発表されたのは、1999年に開かれた半導体業界のイベント「Micro Processor Forum」(MPF)でのこと。講演を担当したのは当時のAMD CTOであるフレッド・ウェバー(Fred Weber)氏である。この時は講演のタイトルは、当初「An Athlon-Family Processor for Workstations and Servers」だったのが、「The AMD Athlon Processor: Future Directions」に変更され、内容もHammerそのものではなく、「LDT」(Lightning Data Transfer)こと「HyperTransport Link」とx86-64命令の説明に終始した(関連記事)。

当初は「LDT」と呼ばれた、HyperTransport Linkの概念図。この時点では将来のAthlon MP向けインターフェースという説明だった

LDTを使ったMP構成の構図。何のことはないOpteronの構造そのものである

RISC CPU(Alpha)とx86を比較して、ほとんど性能差がなくなったことを示した図。つまり今後はRISCに代わって、x86が使われるようになるという見通しを示し、そのためにはいち早く64bitに移行したRISC CPU同様に、x86の64bit対応が必要だと主張した

 翌2000年のMPFでは、「Athlon MP」とAMD-762チップセットが申し訳程度に紹介されただけで、この時点ではx86-64の話なども一切なし。しかし、2001年のMPFでは再びウェバー氏が登壇し、ここで初めてHammerアーキテクチャーが発表された。

Hammerのコアの内部構造。おなじみの図版であるが初登場したのはこの2001年

ノースブリッジの構造。細かなエントリ数なども明らかにされているあたり、この時点で設計が終わったことが見て取れる

 発表時点では性能に関する話は皆無であった。性能についての説明があったのは、翌2002年のMPFである。当時のスライドではSPECint 2000とSPECfp 2000の数字のみが示されているが、講演会場では動作周波数に応じての性能も示されていた。また、マルチコアにおけるメモリー帯域も公開され、拡張性が確保されていることが示された。

2002年に公開されたHammerの性能

Opteronの試作品は1.2/1.4/1.8/1.9/2.0GHzの各周波数で、SPECintの結果をグラフ化したもの、Xeonの方はSPECに公開されている数字を元にしている

同様にOptreron試作品とXeonでのSPECfpの結果をグラフ化したもの

Hammerがインテルに与えた衝撃は大きかった

 Hammerの発表がインテルに及ぼしたインパクトは、かなり大きかっただろうと想像できる。2002年の時点では0.13μmプロセスの「Athlon XP」が健闘してはいたものの、動作周波数の差でNetBurstベースの「Pentium 4」が有利に推移していた。また2プロセッサー構成が限界で、しかもいろいろと不具合があったりしてなかなかサーバーマーケットへの浸透が図れなかったAthlon MPを尻目に、Xeonは着々と売り上げを伸ばしていた。

 しかし前ページのHammerのベンチマークの結果を見る限り、IPC(Instruction Per Cycle)が大幅に改善して、しかも動作周波数2GHzあたりまでの製品が“当初から”投入されると見込まれた。このとおりなら、デスクトップ市場がかなり厳しい戦いになると予想された。

 またHammerのメモリー帯域も、Xeonにとっては非常に脅威となる話であった。Xeonの場合は共有バス方式だから、1プロセッサーだろうが4プロセッサーだろうが、メモリーの帯域には一切差がない。むしろ4プロセッサーにするとFSBを遅くしないと間に合わなくなるから、むしろメモリー帯域は減る。帯域を増やすなんてことはまったくできない。

Hammerのメモリー帯域のグラフ。プロセッサー数が増えるほどメモリー帯域も増大している。なお「Xfire」というのは、HyperTransport Link経由でほかのCPUのメモリーをアクセスした場合の帯域

 反応はすぐに現れた。インテルは2002年11月、突如として「Northwood」コアのPentium 4を小改良。Hyper Threading Technologyを有効にすることで、IPCの向上を図った。続く2003年4月には、それまで533MHzだったFSBを、(次の667MHzを飛ばして)800MHzまで引き上げることにした。これに合わせて「Intel 865PE」や「Intel 875」といった新チップセットも投入される。

 このIntel 865PE/Intel 875は、DDR-400×2という構成で800MHz FSBに対応することになった。しかし2002年9月時点でのDDR-400は、「まだFeasibility Study」、つまり「適合性を調査している」レベルということが、当時のIntel Developer Forum(IDF)2002で明らかにされている。ところがその半年後に開かれたIDF Spring 2003では、いきなりValidation(実機での検証)まで飛んでいた。

2002年9月に開かれたIDF Fall 2002でのメモリーに関する講演資料より。この時点では「No plan by the industry to standardize」とまで言い切っていた

半年後のIDF Spring 2003でのメモリーに関する講演資料より。インテル自身が標準化案を大急ぎで作り、これをJEDECに標準化原案とするように猛烈に働きかけた結果である

 通常はFeasibilityに続けて、「Init Spec」(初期スペック策定)、「Prototype」(試作品の製造とこれによる検証)、「Final Spec」(最終的なスペック策定)、「Evaluation」(最終スペックの評価と検証)を経て、Validationに移る。通常なら最低でも1年、下手をすると2年近くかかるプロセスを半年足らずで済ませてしまうあたり、いかにインテルがDDR-400の策定を急いだのかがよくわかる。

 これは少しでもメモリー帯域を引き上げることで、Hammerベース製品との性能ギャップを縮めようというインテルの努力の結果である。もちろんこれと並行して、次世代Pentium 4である「Prescott」の開発を急いだことも想像に難くない。

 デスクトップはこの対策でもいいとして、Xeonはどうするか? 特に問題なのがメモリー帯域の拡張性だが、これは一朝一夕にどうにかなる問題ではない。そこでせめてもの対策として、Northwoodベースのコアに大容量3次キャッシュを組み合わせることで、少しでもメモリー帯域の少なさをカバーすることを目論んだ。これが、後に「Gallatin」というコード名で知られる「Xeon MP」、あるいは「Pentium 4 Extreme Edition」である。

 この時期に、インテルは持てるカードを全部切ってPentium 4ベース製品の性能の引き上げを図り、SledgeHammerの来襲に備えたわけだ。結果としてインテルはその後の製品展開が面倒なことになり、おまけにPrescottの発熱問題でさらに足をすくわれた結果として、数年間デスクトップ向け製品の迷走が始まる。それだけのインパクトがSledgeHammerにあったと考えてよいだろう。ここまでのHammerは、黒歴史と言うよりもむしろ“輝かしい歴史”と言って差し支えない。

Hammerの前に立ちこめ始めた暗雲

 問題はここからだ。2002年のMPFが開催される少し前の2002年7月、AMDは都内でAMD Developer Forumを開催した。この時期には日本だけではなく各国で同様のイベントが開催されたのだが、その中でHammerベースの製品の登場時期について、デスクトップ向けは2002年第4四半期、サーバー向けは2003年第1四半期と予告した。

2002年7月時点でのClawHammerの出荷見通しを示したグラフ。2002年中の出荷量はごく少量で、恐らくハイエンド製品がクリスマスシーズンに若干出てくる程度と思われた

同様にSledgeHammerは、1四半期遅れての出荷開始が当初予定されていた

 このとおりに実現していれば、それはインテルがパニックになるのもわかろうというものである。このDeveloper ForumではAMD以外にも、VIA/ALi/SiS/ATI/NVIDIAといった各チップセットベンダーがK8対応チップセットを紹介。また「メカニカルサンプル」とは言いながら、主要なマザーボードベンダーがSledgeHammer対応マザーボードを展示するほどに準備が進んでいた。このあたりは、準備が遅れた「K7」(Athlon)のときとは、だいぶ様子が異なっている。

 この展示があった2ヵ月後に、MPFで前述のような性能の開示があった。「これは年末に出る製品が楽しみだ」と誰もが期待したわけである。ところがMPF 2002のタイミングでAMDはまずロードマップを変更した。次に掲載したスライドはMPFで開かれたラウンドテーブルで公開されたロードマップだが、ClawHammerが2003年前半に後退しているのがわかる。

2002年10月時点での、AMDのプロセッサーロードマップ。1・2プロセッサー向けOpteronの「ClawHammer DP」という謎のコード名は、この後のロードマップで消えた。まだこの頃は多少、AMD社内でも混乱があったのだろう

 変更の影響がより大きいのは、「Barton」コアの「Athlon XP」である。元々Bartonは、0.13μmプロセスの「Thoroughbred」をベースとしたコアのまま、K8と同じ0.13μm SOIを利用することで高速動作するコアということになっていた。

 それがこの時点で計画は破棄され、代わりにThoroughbredと同じ0.13μmプロセスを使いながら、2次キャッシュを512KBに増量することで性能の底上げを図るものに切り替わった。ついでに当初は予定に無かった400MHz FSBもサポートするなど、やってることはNorthwoodコアのPentium 4とあまり変わらない。

0.13μm SOIプロセスの歩留まりがあがらず苦しむ

 AMDはこの時点では明言しなかったが、実は0.13μm SOIプロセスの立ち上げで予想以上に苦慮していた。Yield(歩留まり)もSpeed Yield(どの程度の周波数で動作するかの平均値)もかなり悪かったので、Bartonでは確実を期すために0.13μm SOIの利用を中止した。ただそうなると、Thoroughbredのままでは性能の底上げができないので、2次キャッシュ増量とFSBの高速化で対応したわけだ。

 2003年に入ってからも、具体的なラウンチスケジュールは当初まったく聞かれなかった。2002年中にOEM向けにサンプル出荷された初期の「Revision A0」が、「1GHz程度でしか動作しない」という話はそれほど珍しいものではなかった。しかし2003年に入ってリリースされた「Revision B0」でも、2GHzはおろか1GHz台がやっとで、その割には消費電力が多いという話が聞かれるようになる。これではどこまで性能が出るのかと、疑問視されるようになったのがこの頃である。

 最終的に「Revision B3」までステッピングを引き上げて、2003年4月22日にAMDは、まずOpteronを発表する(当時の発表記事)。ただしこの時発表されたのは、以下の3製品のみ。だった。

名称 周波数 価格
Opteron 244 1.8GHz 9万9250円
Opteron 242 1.6GHz 8万6245円
Opteron 240 1.4GHz 3万5375円

 発表後には製品も市場に流れるようにはなったが、圧倒的に多いのはOpteron 240で、242とか244はそもそもほとんど流通していなかった。当時Revision B3のSpeed Yieldでは1.4GHzがやっとで、1.6GHzや1.8GHzは高速動作の選別品扱いになっており、これがそのまま価格に反映された。もちろんこんな速度では、デスクトップ向けとしてはPentium 4に及ぶわけがない。

 AMDはその後も努力を続け、「Revision C0」でようやく安定して2GHz駆動のClawHammerを出荷できるようになった。これを同年9月23日に「Athlon 64 3200+」としてリリースする。ただRevision C0もあまりゆとりはなかったようで、2004年に投入された「Revision CG」でやっと、「0.13μm SOIで本来想定していた性能」が出たようだ。当初の計画からすると2年ほど遅れたことになる。

 こうした遅れの原因は明白で、0.13μm SOIプロセスの立ち上がりが極端に悪かったのが理由である。2006年に同社の「Fab 36」が90nm SOIプロセスの立ち上がりを紹介した時の資料から、青線で示される「130nm SOI Technology Fab 30」の数字を見れば一目瞭然である。

2006年4月に、AMDのオストランダー氏が示した、Fab別のプロセスの歩留まり率の変化を表わすグラフ。青線が問題の0.13μm SOIプロセス。細かい数字は示されないため想像するしかないが、0.13μm SOI量産開始直後の歩留まりは「壮絶に悪かった」そうで、恐らくスタート時点では5割を軽く切っていたと想像できる

 Mature Yield、つまり「量産出荷を開始するに十分な歩留まり」を達成するまでの時間は0.13μmプロセスよりやや短いが、歩留まりそのものはずっと低かった。恐らく0.13μmプロセスを抜いた、ややぎざぎざの部分がRevision C0あたりで、そこから一度谷になるあたりがRevision CGに切り替えた部分と想像される。これだけプロセスが難航していれば、それは製品が出なくても不思議ではない。

 ちなみにこの歩留まりの悪化について、2006年当時に同社のプロセッサー部門製造・技術担当上級副社長を務めていたダリル・オストランダー(Daryl Ostrander)氏に聞いたことがある。オストランダー氏はこれについて、「それまではモトローラ(のHiP7)をベースに製造していたのを、このタイミングでIBM(のCMOS9Sベース)に切り替えた。これは予想以上に困難で、当初の予定よりも長く2年8ヵ月も要した。今から思えばなかなか無茶だったね」と説明した。要するに、当時はここまで切り替えに時間がかかるとは思わなかった、という見通しの甘さがこの遅延の最大の要因だろう。

 この遅延によって立ち上がりでもたついたにも関わらず、2004年に投入されたインテルのPrescottが自滅してくれたお陰で(連載118回参照)、Athlon 64やOpteronはそれなりのマーケットシェアを握り、K10コアまで好調に推移することになる。だがもしここで立ち上がりに失敗しなければ、もっと早期にマーケットシェアを握ることが可能だったろうし、AMDの資金繰りもずっと楽になっていただろう。

 アーキテクチャーそのものには問題がなかったのは、これに続くK8系列製品が低消費電力・高性能のプロセッサーとして記憶されていることからもよくわかる。とはいえ、0.13μmのバルクCMOSプロセスで製造したCPUが2GHz超えで動いているときに、「30%高速に動作する」はずのSOIプロセスが1.4GHzあたりで苦労しているというのは、明らかにおかしい。やはり、アーキテクチャーの変更とプロセスの変更を同時にやったのが、黒歴史入りの理由ではないかと思う。

■関連記事