性能の高いシステムを運用するには
高い性能を引き出すための環境づくりが必要
ではもう少し時代を戻して、2002年に運用が開始された地球シミュレータを見てみたい。途中で一度構成が更新されているが、2002年当時の構成では、1つのPN(Processor Node)は8.192GFLOPSのプロセッサー×8で構成され(PNあたりの性能は65.54GFLOPS)、このPNが640台で構成されているので、システム全体では40.96TFLOPSの理論性能となる。
この地球シミュレータは早い段階で高い実効性能を証明し(関連記事)、TOP500で5期連続トップを維持するといった成果も残している。訪問記事などを読み返すと、今から思えば「なんという力技だ」と感心してしまう。この地球シミュレータの構築費用は、建物なども含めて600億円である。
ではこの2002年は、ほかにどんなコンピューターがあったかというと、インテルがPentium 4の3.06GHzをリリースしていた時期だ。理論性能で言うとPentium 4は2 FLOPS/Cycleなので、7.13GFLOPS程となる。もっともLINPACKのテスト結果では1.2GFLOPSにやや届かない程度という数字もある(環境によって変わる)。
ちなみにPentium 4 3.06GHzの価格は2002年当時で約8万円であるが、これはあくまでもCPU単体の価格であり、地球シミュレータ同様にシステム価格にすると、大雑把に考えて25万円程度であろうか。
幸いにも2002年だと安価なDDR-SDRAMが使えるIntel 845EPEチップセットが利用可能である。ただ地球シミュレータが8プロセッサーで16GBの共有メモリーなのでプロセッサーあたり2GB換算になる。
同様にDDR-SDRAMで2GBを用意するとなると、この当時で512MB DIMMが大体3.5万~4万円だったので、メモリーだけで14~16万円という計算になり、これとCPUに加えてマザーボードや電源を組み合わせると、30万は行きすぎだが20万円だと足が出るだろう、という判断だ。
さて、単純に性能価格比で考えると、以下のようにかなり地球シミュレータの分が悪い。
地球シミュレータ | 600億円/40.96TFLOPS≒143.1万円/GFLOPS |
---|---|
Pentium 4 | 25万円/7.2GFlops≒3.5万円/GFLOPS |
もっとも実効性能で比較すると、下表のように差は8倍程度に縮まるのだが、それでもコストの差はいかんともしがたいところである。
地球シミュレータ | 600億円/35.61TFLOPS≒164.5万円/GFLOPS |
---|---|
Pentium 4 | 25万円/1.15GFlops≒21.7万円/GFLOPS |
こうなってくると、では「コストパフォーマンスの悪いほうがスーパーコンピューター?」という結論に達してしまいそうだが、もう少し話は複雑である。
地球シミュレータに使われているプロセッサーはNECのSX-5ベースのものである。SX-5ベースと書いたのは、本来のSX-8は1998年にリリースされたもので、この当時はCPU全体をワンチップ化できておらず、0.25μmプロセスで製造した複数のチップでプロセッサーボードを構成していた。
地球シミュレータでは、これを0.15μmの銅配線プロセスに切り替えて小型化するとともに、複数チップを1つに集約しており、物理的には異なるチップである。
さて、そのピーク性能そのものはPentium 4とSX-5でほとんど変わらないが、「ではPentium 4のセットを5120台並べれば地球シミュレータを抜けるか?」というと、絶対に無理である。
先の訪問記事でも、PNのそれぞれから数百本の同軸ケーブルが出ている写真があったが、地球シミュレータの場合は個別のPNの性能よりも、それを600台並べてつないで、それでも性能を落とさないための技術が卓越していた。というより、そうしないと性能が出なかった。
同じことを、Intel 845E/PEチップセット搭載マザーボードのPCIバスに、ネットワークカードを差してつないだ程度の構成で実行するのは、やはり無理がある。
なにを述べたいかというと、スーパーコンピューターそのものは、最終的には絶対性能の高いシステムのことを指すのだが、そのスーパーコンピューターを構築するための方法論が、当初は純粋にCPU性能を引き上げることに注力すればよかったのが、次第にその高い性能を引き出すための環境づくりに力点が移りつつあるということだ。
もっと最近の話をすると、今度はそれをいかに省電力で実現するかが大きなテーマになっている。このあたりの変遷は、次回以降で個別に論じていきたい。
なお今回のシリーズは、個人的には黒歴史シリーズにしないつもりでいる。スーパーコンピューターの世界は、わりと黒歴史に近いというか、黒歴史そのものといったものが少なからず混じっており、一歩間違うと黒歴史連載になりかねないのだが、今回はそうした趣旨ではないということをご理解いただきたい。
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ