今回のスーパーコンピューターの系譜は、ASCIのCTS(Commodity Technology Systems)を紹介したい。CTSの話は連載286回で少し触れているのだが、もう少し細かい話をしよう。
さらに新しい領域に挑戦するASCIプロジェクト
クラスター構成にした安価なシステムの運用を模索
Delivering InsightのChapter Fourにある“Linux Clusters - Providing Cost Effective TeraFLOP/s”の前書きを読むと、「ASCI RedとASCI Blueという2種類のアーキテクチャーのシステムを完成させたことで、MPP(超並列)とSMP(対称型マルチプロセッシング)のどちらでもテラフロップスのシステムを構築できることをASCIプロジェクトは示したが、さらに新しい領域に挑戦することにした」と、勇ましいことが書いてある。
要するにASCI Red以降に連なるハイパフォーマンス系システムはコストがかかりすぎるので、もう少しなんとかならないか、という機運が起こったらしい。
具体的には、もっと安価なマシンをクラスター構成にしたシステムで同等なことができないか、という検討が始まった。こうした機運が起こり始めたのは1990年代の遅い時期だったそうなので、プロセッサーで言えばIntelがPentium II XeonやPentium III Xeonをリリースした頃。LinuxはもうKernel 2.0がリリースされていたあたりだ。
おもしろいのは、Unixをベースとしたクラスターではなく、Linuxをベースとしたクラスターが当初から検討されていたらしい。というのはそもそもローレンス・リバモア国立研究所を初めとする研究所やNASAなどでは、研究目的でLinuxをベースとした大規模クラスターを構築するという実験を1990年代前半から始めていたそうだ。
その目的は、あらゆる場所に普及しているデスクトップPCをクラスター化して高性能なシステムにする、というものだったそうだ。
読者の中にはまだ記憶がある方もおられようが、SETI@Homeというプロジェクトが1999年頃からスタートし、日本でも結構なユーザーが参加していた。
これはETI(地球外知的生命体)の信号を検出するために、アレシボ天文台の観測データを分析するというものだが、この分析を研究所のシステムで行なうのではなく、インターネットにつながった多くのユーザーのPCの空き時間に、バックグランドタスクで処理するというものである。
同種のものはその後に多数登場してきているが、クラスターというよりももっと緩い形で、多数のマシンによる分散処理を行なうというもので、肝心のETIの信号はいまだに見つかっていないが、分散処理の仕組みそのものは成功したとみなされている。
話を戻すと、Linuxを利用してのクラスターシステムは比較的現実的なものと捉えられていたらしい。
もう1つ問題だったのは、当時のASCIのシステムは、いずれもCapability Computingの方向に振れたシステムだったことだ。Capability Computingという用語は連載292回でも説明したが、「非常に計算量が多い大規模シミュレーションなどを、最大限の計算能力を利用して最小時間で解決する」目的である。
これは、問題が決まっていて、あとはそれを解くだけ(ただし問題は非常に大規模で計算量も多い)、という場合には適したシステムである。
だがそれ以前に、研究の初期段階ではそもそもどういう問題を解くべきかというリサーチの時間が当然必要になる。こうしたケースでは、シミュレーションそのものは小規模であるが、さまざまなパターンを試すことになるわけで、多数の小規模シミュレーションを走らせるといった使い方になる。こうした目的には、Capability Computingはあまり向かない。
あえて言えば、チェーンソーで羊羹を切断するようなもので、切れなくはないのだが無駄が多すぎる。こうした目的にはCapacity Computing(日本語訳では「計算容量によるコンピューティング」)の高いシステムが必要になる。
加えて言えば、3つの国立研究所(ロスアラモス/サンディア/ローレンス・リバモア)は、いずれも主たる任務は核爆弾の正確なシミュレーションを構築することで、核防衛体制の維持に貢献することだが、それとは別に政府内のさまざまな機関からの要請に応じて多数の科学関係のシミュレーションを行なっており、こうした目的に使えるシステムが必要になった。
最終的に2003年のJASON Study(連載292回で紹介した資料である)の中で、Capabilityを高めたシステム以外に、Capacity Computingのシステムも必要であるという指針が出されたが、これが出る前からASCIの中でCapacity Computingに向けたシステムの開発は始まっていた。
連載286回では触れなかったのだが、ASCI Redと2種類のASCI Blue(Blue MountainとBlue Pacific)の後で、SMP方式のシステム(ASCI White/ASCI Q/ASCI Purple)の開発を進めていく“PathFoward”と呼ばれる計画が1997年にスタートした。
このPathForwardは米エネルギー省の国家核安全保障局内の国防計画局(Office of Defence Program)とロスアラモス/サンディア/ローレンス・リバモアの3つの国立研究所が共同で進めたものだが、ASCI系列のマシン以外にCapacity Computingのプラットフォームを立ち上げるという作業も行なった。
2001年の冬にこのPathForward内で、要求されるCapacity Computing向けのプラットフォームはLinuxベースのクラスターで構築できると判断され、2002年5月にRPF(要求仕様書)がリリースされる。
このRPFに基づく形でローレンス・リバモア国立研究所に納入された最初のシステムがMCR(Multiprogrammatic Capability Resource)である。
この連載の記事
-
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ -
第786回
PC
Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ - この連載の一覧へ