トランプ大統領が科学予算を大幅削減
納期が延び、そのぶん「顧客の要望」が跳ね上がる
2016年9月時点におけるExaFlopsのマシンのロードマップは下の画像のようになっている。すでにローレンス・バークレー、オークリッジ、アルゴンヌの3つの国立研究所にEdison/Titan/Miraというシステムが稼動している。これは言わば“Pre-Pre Exascale”である。
画像の出典は、2016年9月のASCAC MeetingにおけるASCACのSteven Binkley氏の資料“DOE Office of Advanced Scientific Computing Research”
2016年中にローレンス・バークレーとアルゴンヌの国立研究所でCoriとThetaという2つのシステムが動くが、これはそれぞれEdisonとMiraのアップデートである。特にThetaは、続くAuroraの準備のための側面が強い。そして、2017~2019年にかけて導入されるSummitとAuroraが、どちらも“Pre-Exascale”という位置づけになっている。
ここには入っていないが、SummitのサブセットであるSierraもローレンス・リバモア国立研究所に導入される予定、という話は連載373回でも触れた。一方のAuroraはSummit/Sierraの1年遅れであるが、Knights Hillをベースに構築される予定であった。
さて、Summit/Auroraは、どちらも0.1EFLOPSのオーダーである。インテルの資料によれば、Auroraは設備を増強すると最大450PFLOPS(0.45EFLOPS)まで達成可能とされるが、どちらにしても1EFLOPSにはおよばない。これに関しては、Coralと呼ばれる次のシステムで実現する予定であった。Coralはローレンス・リバモア国立研究所に設置される予定になっており、ECPではこのCoralの予算を2017年から計上していく予定であった。
これが全部ひっくり返ったのは、トランプ大統領が就任直後に科学予算に関して大幅減額を決めたことだ。エネルギー省の2018年度予算は280億ドル削減(2017年度比で-6%)となり、これはCoralを直撃した。
厳密に言えば、エネルギー省の科学技術分野全体でいえば9億1900万ドルの削減であるが、先端科学コンピュータ研究に限れば7500万ドル増えて7億2200万ドルが予算化されている。
とはいえ、Coralはこの程度の金額では構築できない。7億ドルを全額Coralに突っ込めるわけではないからだ。結局Coralの予算化は成立していない。
ではどうしたか? というと、Coralの代わりにAuroraを1EFLOPSマシンに仕立てる、というプランが2017年9月に登場した。Auroraはもともと主契約者がインテル、副契約者としてシステムインテグレーションをCrayが請け負っていたが、この契約が2021年に延びた形だ。その代わり、性能も180PFLOPSから1EFLOPS以上に跳ね上がっている。冒頭でインテルのDamkroger氏が言っていた「顧客の要望」がこれである。
画像の出典は、2017年9月のASCAC MeetingにおけるASCRのBarbara Helland氏の資料“Advanced Scientific Computing Research”
Knights Hillの開発中止は
10nmプロセスの遅延が原因
さて、ここまでは表向きの話である。裏向きというか本当はどうかといえば、インテルが2018年までにKnights Hillを提供するのが絶望的であり、システムを期限までに納入できるめどが立たなくなった、と認識されている。実際Damkroger氏の言及が事実だとしても、Knights Hillを中止する理由はどこにもないからだ。
すでにKnighs LandingベースのXeon Phiが多くのシステムで利用されているわけで、もしKnights Hillに問題がないのであれば、Aurora以外のシステムでこれは多く利用されることになるだろう。
どこにも中止する理由はないし、逆に中止してしまうと、現在Knights Landingを使っているシステムのアップグレードパスが当面途切れてしまうことになる。というより途切れることが決定してしまった。
ではなぜインテルがKnights Hillの開発に失敗したかといえば、おそらく10nmプロセスの開発の遅延のためだろう。連載429回でも書いたが、そもそも10nm世代がまるまる1年遅延なので、どんなに急いでもKnights Hillが登場するのは2019年以降ということになる。これは、いくらなんでも遅すぎる。
すでにNVIDIAはVolta世代で7.8TFLOPS(DP)/15.7TFLOPS(SP)の演算性能を誇っている。一方Knights HillはDPで5TFLOPS以上、という数字が示されてはいるが、Voltaに追いつくところまでは行っていない。
しかも2019年ということでは、NVIDIAにしてもVoltaの次が出ているあたりで、差はさらに開くことになるだろう。こうなると、商品価値そのものが疑われかねないことになる。Knights Hillを中止した理由は、おそらくこのあたりにあるのだろう。
PSCはなぜこれを受け入れたかといえば、現実問題としてインテル/Crayにキャンセルを出したとして、代案をもう一度出して、入札をして……の過程を繰り返したところで、2018~2019年にシステムが間に合う可能性はない。
またCoralそのものの提案を出し直すと、IBM/NVIDIA連合によるSummit/Sierraの契約にも影響が出かねない。ある意味苦肉の策だったのではないかと思う。
同種の話はASCIのときにもあった。ASCI Qは当初30TFLOPSを狙ったはずが、いつの間にか20TFLOPSに性能が切り下がったりしているあたり、よく言えば柔軟な対応、悪く言えばずぶずぶというあたりだろうか。今回も同種の話だったのだろうと想像される。
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ