連載430回のSGIに絡んで、MIPS TechnologyのCPUを使っていたつながりで今週はTandem Computerを紹介したい。
Tandemは、以前COMPAQに絡んで少しだけ紹介している。同社は1997年にCOMPAQに買収されており、その後はCOMPAQ社内で旧COMPAQ派と旧DEC派の三つ巴の激しい社内抗争が発生していたらしい。
なんだかどこぞの銀行を髣髴とさせる話だが、それもあってラインナップの統合もなかなか進まず、業績がどんどん低下して、結局HPに買収されることになった……という話は本筋ではなく、今回はその1997年の買収までのTandemの経緯を取り上げよう。
故障しても止まらない
システムを構築
Tandemは1974年、James G. Treybig氏を中心とした旧HP社の社員によって設立された。当時、銀行を初めとする金融機関は「止まらないコンピューター」を切実に欲していた。
1970年代といえばもうICはおろか、小規模なLSIが実用になっている時代であり、IBMならSystem/370を、DECならばPDP-11をそれぞれリリースしていた頃(VAXは1970年代後半)である。
真空管やトランジスタの時代に比べるとずっと性能もあがり、信頼性も高まっていた時代ではあるが、金融機関が求めるような大型のシステムだと、回路も大規模化するため、ある程度壊れることは避けられなかった。
もちろん金融機関のような大口ユーザーならばエンジニアが常駐しており、故障したらただちに交換部品(これも客先にストックしておくのが普通だった)と交換して再立ち上げすることでシステムが停止している時間を最小限に留めるといった対応は日常的になされていたが、止まることそのものが業務へのリスク(当然その間銀行業務そのものが止まってしまう)と考えられたため、「止まらない」システムへのニーズは強かった。
当時Treybig氏はHP 3000というミニコンのマーケティングに携わっていたが、この「止まらない」システムを構築するために、「フォールトトレラント」なシステムをTreybig氏は思いつき、HPの上層部に提案する。
要するに2つの独立したシステムを同時に動かしておき、片方が故障を起こしたら直ちにもう片方がそれを引き継ぐことで、ユーザーから見れば故障していないように見えるというものだ。
「壊れない」システムから「壊れても困らない」システムへの発想の転換であるが、残念ながら当時のHPの上層部はこのアイディアを却下。そこで自分で会社を興してそうしたシステムを作ろう、と決めたわけだ。
幸いにも元HPの重役だったThomas J. Perkins氏と、Fairchild Semiconductorの創業者の1人であるEugene Kleiner氏はこのアイディアを気に入り、まず2人合計で50万ドルの投資を受けてTamdem Computerが創業される。
2人はこの後も合計150万ドルを1975年に追加で投資し、さらにベンチャーキャピタル筋からも150万ドルの投資を受けて、とりあえずの運転資金をまかなうことに成功する。この運転資金を元に、まずソフトウェア開発担当副社長としてMichael D. Green氏を、ハードウェア開発担当副社長としてJames A. Katzman氏をそれぞれHPから引き抜いている。
他にCFOのJohn C. Loustaunou氏とマーケティング担当副社長のDavid R. Mackie氏などで、4人はいずれもHP 3000シリーズのコアメンバーだった。その意味では、HP 3000のフォールトトレラント版と言えなくはないが、作られたマシンはHP 3000とは互換性がない。
画像の出典は、“HP Alumni”
ただシステム構成やプロセッサーのアーキテクチャーなどは、HP 3000と相似点があるのは当然ではある。もっとも機能的に言えば、たとえば仮想アドレスのサポートはHP 3000には搭載されておらず、HP 3000をベースにもっと優れたものを作り出した、というべきだろう。
特徴はプロセッサーそのものというよりもシステム設計の側にある。先に述べたように、2つの独立したハードウェアを同時に動かし、片方に障害があったら、もう片方が引き継ぐのがTandemのフォールトトレラントの肝であるが、このためには「障害検知」と「障害があった場合の代替処理」がスムーズに行なえないといけない。
これを行なうためのソフトウェアがGuardianと呼ばれ、システムの動作と、データ転送などをすべて監視し、障害があったらすぐさま代替処理を行なうようにした。
ただし、これだけではフォールトトレラントとしては不十分である。というのは、時間が経つともう片方も壊れるかもしれないからだ。したがって、壊れた場合には「システムを落とさずに」壊れたユニットを交換して復帰させる必要がある。
ホットリペアリング、あるいはホットスワップといった言い方が一般的だが、これを実用レベルで実装することで、「故障が発生しても代替モジュールが処理を継続するので、その間に壊れたモジュールを交換することで無停止を継続できる」という、完全なフォールトトレラントが完成する。
この連載の記事
-
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ - この連載の一覧へ