連載430回のSGIに絡んで、MIPS TechnologyのCPUを使っていたつながりで今週はTandem Computerを紹介したい。
Tandemは、以前COMPAQに絡んで少しだけ紹介している。同社は1997年にCOMPAQに買収されており、その後はCOMPAQ社内で旧COMPAQ派と旧DEC派の三つ巴の激しい社内抗争が発生していたらしい。
なんだかどこぞの銀行を髣髴とさせる話だが、それもあってラインナップの統合もなかなか進まず、業績がどんどん低下して、結局HPに買収されることになった……という話は本筋ではなく、今回はその1997年の買収までのTandemの経緯を取り上げよう。
故障しても止まらない
システムを構築
Tandemは1974年、James G. Treybig氏を中心とした旧HP社の社員によって設立された。当時、銀行を初めとする金融機関は「止まらないコンピューター」を切実に欲していた。
1970年代といえばもうICはおろか、小規模なLSIが実用になっている時代であり、IBMならSystem/370を、DECならばPDP-11をそれぞれリリースしていた頃(VAXは1970年代後半)である。
真空管やトランジスタの時代に比べるとずっと性能もあがり、信頼性も高まっていた時代ではあるが、金融機関が求めるような大型のシステムだと、回路も大規模化するため、ある程度壊れることは避けられなかった。
もちろん金融機関のような大口ユーザーならばエンジニアが常駐しており、故障したらただちに交換部品(これも客先にストックしておくのが普通だった)と交換して再立ち上げすることでシステムが停止している時間を最小限に留めるといった対応は日常的になされていたが、止まることそのものが業務へのリスク(当然その間銀行業務そのものが止まってしまう)と考えられたため、「止まらない」システムへのニーズは強かった。
当時Treybig氏はHP 3000というミニコンのマーケティングに携わっていたが、この「止まらない」システムを構築するために、「フォールトトレラント」なシステムをTreybig氏は思いつき、HPの上層部に提案する。
要するに2つの独立したシステムを同時に動かしておき、片方が故障を起こしたら直ちにもう片方がそれを引き継ぐことで、ユーザーから見れば故障していないように見えるというものだ。
「壊れない」システムから「壊れても困らない」システムへの発想の転換であるが、残念ながら当時のHPの上層部はこのアイディアを却下。そこで自分で会社を興してそうしたシステムを作ろう、と決めたわけだ。
幸いにも元HPの重役だったThomas J. Perkins氏と、Fairchild Semiconductorの創業者の1人であるEugene Kleiner氏はこのアイディアを気に入り、まず2人合計で50万ドルの投資を受けてTamdem Computerが創業される。
2人はこの後も合計150万ドルを1975年に追加で投資し、さらにベンチャーキャピタル筋からも150万ドルの投資を受けて、とりあえずの運転資金をまかなうことに成功する。この運転資金を元に、まずソフトウェア開発担当副社長としてMichael D. Green氏を、ハードウェア開発担当副社長としてJames A. Katzman氏をそれぞれHPから引き抜いている。
他にCFOのJohn C. Loustaunou氏とマーケティング担当副社長のDavid R. Mackie氏などで、4人はいずれもHP 3000シリーズのコアメンバーだった。その意味では、HP 3000のフォールトトレラント版と言えなくはないが、作られたマシンはHP 3000とは互換性がない。
画像の出典は、“HP Alumni”
ただシステム構成やプロセッサーのアーキテクチャーなどは、HP 3000と相似点があるのは当然ではある。もっとも機能的に言えば、たとえば仮想アドレスのサポートはHP 3000には搭載されておらず、HP 3000をベースにもっと優れたものを作り出した、というべきだろう。
特徴はプロセッサーそのものというよりもシステム設計の側にある。先に述べたように、2つの独立したハードウェアを同時に動かし、片方に障害があったら、もう片方が引き継ぐのがTandemのフォールトトレラントの肝であるが、このためには「障害検知」と「障害があった場合の代替処理」がスムーズに行なえないといけない。
これを行なうためのソフトウェアがGuardianと呼ばれ、システムの動作と、データ転送などをすべて監視し、障害があったらすぐさま代替処理を行なうようにした。
ただし、これだけではフォールトトレラントとしては不十分である。というのは、時間が経つともう片方も壊れるかもしれないからだ。したがって、壊れた場合には「システムを落とさずに」壊れたユニットを交換して復帰させる必要がある。
ホットリペアリング、あるいはホットスワップといった言い方が一般的だが、これを実用レベルで実装することで、「故障が発生しても代替モジュールが処理を継続するので、その間に壊れたモジュールを交換することで無停止を継続できる」という、完全なフォールトトレラントが完成する。
この連載の記事
-
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 - この連載の一覧へ