今回はASCI Blue Pacificの後継となる、ASCI Whiteの話である。元々のASCI計画は段階的に性能をあげていくものだった、という話は連載286回でお伝えした通りだ。
Option Redが1TFLOPS、Option Blueが3TFLOPSで、これに続き10TFLOPSと30TFLOPS、そして100TFLOPSに向けて性能を改善していくシナリオである。その3番目の10TFLOPSを狙うマシンについては、1997年中に設計を開始、1998年から製作に入り2000年には運用を行なう予定であった。
実際にこのASCI Whiteの契約が行なわれたのは1996年7月4日のことである。契約金額は9300万ドルで、当時の為替レートで換算すると101億円ほどになる。
内容的には前回も少し触れたがASCI Blue Pacificのアップグレード的な構成であるが、実際にはプロセッサーボード以下すべてが総入れ替えのため、新規インストールとして差し支えないだろう。
ちなみにこの契約時点ではまだ“ASCI White”という名称は用いられていない。2000年に設置完了のリリース(関連リンク)が出た時にはすでに“Known as ASCI White”という呼び方がされているので、この3年間のどこかで決まったのだろうが、そのあたりはいろいろ資料をひっくり返したものの判明しなかった。
余談だが、この2000年6月という時期は、ロスアラモス国立研究所でセキュリティー事故が起きており(関連リンク)、これに関連してローレンス・リバモア国立研究所も調査を受けていた(関連リンク)模様で、それもあってかASCI Whiteに関するリリースが一切出ていないのは残念である。
開発が遅れたPOWER3
ASCI Whiteの基本構成はASCI Blue Pacific同様にIBMのRS/6000 SPをベースとしたものである。ただし、1996年といえばすでにP2SCも完成しており、さらにPOWER3の設計がだいぶ進んでいた時期である。
そもそもASCI Blue PacificはPowerPC 604evベースであるが、このCPUはFPUが32bit幅であり、かつFPUそのものも1つしかなかった。
これと同時期に登場していたPOWER2は64bit幅のFPUを2つ搭載しているため、動作周波数が同じであればPowerPC 604eをPOWER2に変えるだけで、倍精度の浮動小数点演算性能は8倍以上になる計算である。
なぜ4倍ではないかというと、POWER2のFPUはFMA(Fused Multiply-add:要するにMAC演算)を1サイクルで行なえるから、実際には2演算/サイクルとなるためだ。
もちろん実際は製造プロセスが違うため同じ動作周波数では動かないうえ、POWER2はマルチプロセッサーに未対応だったため、これは実現しないのだが、逆に言えばPOWER2をPowerPC 604evと同等のプロセスで製造し、かつマルチプロセッサー対応にすれば実現することになる。
これを実現したのがPOWER3である。POWER3そのものの発表は1997年10月のMicroProcessor Forumで行われた(余談だが、この発表を行なったのは現在AMDのCTOであるMark Papermaster氏である)。
このPOWER3もやや複雑な経緯を経ている。POWER3の発表に先駆け、1997年にPowerPC 620というプロセッサーがリリースされている。世代的にはPowerPC 603/604と同じ第2世代にあたるのだが、大きな違いは64bit拡張されていたことだ。
内部構造はPowerPC 604に非常に似ており、5段のパイプライン構成で、3×ALU、1×FPU、1×LD/STというあたりはまったく同じである。
またこれとは別に、動的予測機能を持つ分岐予測ユニットと、条件レジスターユニットを持つあたりも同じで、命令/データの1次キャッシュをそれぞれ32KB持つところも一緒である。
ただ本来は1996年中に発表予定だったのが、開発が遅れて1997年にずれこみ、さらにMotorolaがこれを0.5μmプロセスで製造した関係で、速度は最高でも150MHz程度であった。後に0.35μmプロセスに微細化して200MHzに達するが、時すでに遅しであった。
POWER3は、このPowerPC 620を下敷きにしている。実際当初はPowerPC 630と呼ばれていた。ただ途中で命令セットをPowerPC ISAではなくPOWER ISAに改めたり、FPUをデュアル構成にしたりとさまざまな改良を行なった結果、もはやPowerPCには属さないと判断されたためか、POWER3の名前でリリースされている。
内部構造は下の画像の通りで、POWER2同様にそれぞれのFPUはFMAをサポートしており、MAC演算を多用する科学技術系演算では有利とされた。
パイプライン長は整数演算で7段、ロードストアで8段、浮動小数点演算で10段と、昨今では短い部類に入るが、この当時ではわりと長大な規模だった。他にもデータキャッシュを64KBに増量したほか、オフチップの形で2次キャッシュを外付けで接続できるようになっている点もPowerPC 620とは大きく異なる部分だ。
1997年に発表された時には、同社のCMOS-6S2というハイブリッドタイプの0.25μmプロセス(トランジスタは0.25μm、配線は0.35μm)を利用し、1500万トランジスタを270mm2のダイに収め、200MHzで駆動させた。1999年末には、これを0.22μmプロセス+銅配線のCMOS-7Sに切り替え、動作周波数を最大450MHzまで引き上げることに成功している。
(→次ページヘ続く 「スイッチを挟むことで大規模SMPを実現」)
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ