AMD K9
続いては「世の中に出なかったCPU」を取り上げよう。まずは有名どころのAMD「K9」である。
AMDは「K8」(Opteron、Athlon 64)に続いて、K9の設計を2001年初頭から開始していた。これは「Greyhound」というコード名で知られていたが、2002年にAndy "Krazy" Glew氏がインテルからAMDに移籍して、彼がK9のアーキテクチャーを事実上決める原動力になったようだ。
本来であればK9は、2003年中にテープアウト(設計完了)の予定だった。しかし、その前にK9はキャンセルとなり、Glew氏も2004年6月にAMDを退職。後に再びインテルに戻った。現在はMIPS Technologiesで主任コンピューターアーキテクトを務めている。
さてこのGlew氏が、2009年に「Google グループ」に投稿したメッセージが面白い。最初に要約として「AMD's Bulldozer is an MCMT (MultiCluster MultiThreaded) microarchitecture. That's my baby!」とある。ようするに、「K9とBulldozerは極めて近いコンセプトである」いう主張だ。直接的なK9(Glew氏はK10としている)の説明はないが、基本的なアイデアはまったく同じようだ。
もちろん、いくつかは異なっている。Glew氏の書き方からするに、「FPUを共用化する」というのは、あとで出てきたアイデアのようだ。またK9とBulldozerでは、「Cluster」と「Core」の用語が逆転しているらしい。一方で、マルチスレッド性能の向上に主眼を置いて、これを実現するために複数スレッドで共用するフロントエンドと、スレッドごとに独立するバックエンドに分かれてクラスターを構成するというコンセプトは、どうやらK9の時に生まれたようだ。
インテルの「Hyper-Threading」の場合、フロントエンドもバックエンドも基本的には共用で、一部のレジスターだけがスレッドごとに用意されるというケチケチ設計となっている。だが、これでは十分にマルチスレッド性能が引き上げられないと、Glew氏は考えたようだ。
この結果として検討されたK9は、やはりBulldozerに近い特性を持つものだったろう、というのは容易に想像がつく。この構造はHyper-Threadingに比べると、独立したバックエンドの回路規模がどうしても大きくなる。例えばSandy Bridgeの場合、アウトオブオーダーで実行されるバックエンドの整数演算側は、ALU×3、Load×2、Store×1の6ポート構成となっている。
これをBulldozerの方式で実装すると、ALU×6、Load×4、Store×2の12ポート構成になり、これではダイサイズが猛烈に肥大化することになる。そこでBulldozerでは、コアあたりALU×2、Load×1、Store×1の4ポート構成に抑えることで、ダイサイズを現実的な範囲に収めた。
1スレッドだけを実行する場合、IPCの観点ではSandy Bridgeに性能で及ばない。ところが2スレッドの場合なら、Sandy Bridgeは6ポートのままとなるが、BulldozerはALU×4、Load×2、Store×2が動くことになるので、トータルのスループットで勝るという発想だ。
これがK9で受け入れられなかったのは、まだ当時はマルチスレッドがほとんど利用されていなかったからだ。ソフトウェアのマルチスレッド化が進み始めたのは、インテルがPentium 4やPentium Dでの性能を引き上げるべく、なりふり構わずアプリケーションのマルチスレッド化サポートを強力に行ない始めた2005年以降のこと。しかもその当時ですら、サーバー向けアプリケーションや一部のエンコーダー類しか効果がなかった……と言うよりも、今でもそんな状態が続いている。
だからマルチスレッドに対応していないアプリケーションを動かしたら、性能が極端に落ちるのはBulldozerを見れば明らかである。K9がキャンセルになったのはある意味仕方がないことだった、と言える。
この連載の記事
-
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 - この連載の一覧へ