プロセッサーの高性能化で廃れた
アクセラレーター
話がやや逸れたので戻すと、こうしたアクセラレーターは、HPCの創成期にはよく見かけたのだが、その後はしばらく廃れていた。理由は、HPCに使われるプロセッサーそのものの高性能化である。
一番わかりやすいのはQCDOCからBlueGene/L・BlueGene/P・BlueGene/Qの系列であろうが、要するにFPUをどんどん強化してCPUコアの中に入れてしまうのが、システム的にはオーバーヘッドも少なく、性能も上がりやすいからだ。
また、この当時はそれが一番コストが安いという側面もあった。半導体業界の話になるが、2000年前後におけるNRE(Non-Recurring Engineering)コスト、要するにゼロからまったく新しいチップを作る際の最初の設計やマスク製造といったコストは、せいぜいが1000万円程度だった。
これはかなり大きいといえば大きいのだが、そのシステムが1000個のプロセッサーを使うとすれば1個あたり1万円、1万個ならば1000円でしかない。「1万個も使うか?」と思われるかもしれないが、QCDSPですら8192ノード、QCDOCは最終的に1万2288ノードなので、1万個使うのは割と現実的である。
チップの原価はダイサイズ(と歩留まり)次第だが、仮に大きめのダイが1万円としても、初期コストとあわせて1万1000円~2万円の範囲である。こうしたケースでは、あえてアクセラレーターを使わなくても、そのアクセラレーター機能を内蔵した専用チップを作った方がむしろ割安になる。
この状況が変わってきたのが、2000年後半からである。プロセスで言えば90nm世代あたりからであるが、NREコストが億の単位になってきたからだ。
こうなると、1万個作っても初期コストがチップ1個あたり1万円ほど乗る計算になり、かなり割安感が薄れてきた。これが65/45nmではさらにNREが増しており、28nm世代では10億まではいかないもののそれなり、28nm未満ではまさに10億円台に突入しようとしている。
つまり、製造コストを千円台に抑えたとしても初期コストの分が乗っかるため、チップの価格は数万~10万円になる計算だ。これは1万個製造した場合なので、10万個や100万個作ればもう少し現実的な価格に収まるが、逆に千個台だと論外なほどの価格になる。要するに、専用チップが急速に非現実的なソリューションになってきたのである。
その一方、汎用チップ(特にx86)は量産効果とプロセス微細化/アーキテクチャー改良により急速に性能を伸ばしており、ほぼ価格を一定に抑えながら毎年のように性能を上げてきている。
最近でこそようやく性能の伸びが鈍化したが、例えばインテルのHaswellチップに匹敵する演算性能を専用チップで作ろうとすると、これは非常に難しい。
予算を考えなければ不可能ではないが、そのチップをHaswellと同じ価格(Core i7-4790Kは5万円未満で購入できる)に収めるのは絶対に不可能だ。インテルでこれが可能なのは、生産量が桁違い(ウン億個単位)なので、NREコストがチップあたり数百円ですむためである。
ただし、Haswell単体は決して浮動小数点演算が高速なわけではない。いや、単体のFPUとしては高速だが、汎用プロセッサーとしての使い方がメインなので、消費電力あたりの浮動小数点演算性能はそう高くない。AVX命令を駆使しても1コアあたり16FLOPS/サイクルである。
Core i7-4790Kをフルに駆動した場合、定格4GHzで4コアなので256GFLOPSでTDP 88Wということで、2.91GFLOPS/Wほどの性能になる。これはIBMのBlue Gene/Qに搭載された3.72GFLOPS/Wにやや劣る程度であり、逆に言えばCore i7-4790Kを使う限りBlueGene/Q以上の性能には絶対にならないとも言える。
なぜこんなに絶対性能と性能/消費電力比が低いかといえば、「汎用だから」に尽きる。HPC市場というのはHaswellベースプロセッサーの販売量全体の中ではほんのわずかに過ぎない。HPC向けの場合、極端に言えば浮動小数点演算の性能をもっと高くし、メモリー帯域をもっと増やし、その他の機能をガンガン落としたものが好まれるが、HPC以外ではもっとバランスの取れた構成が要求される。
どちらの要求が通るかといえば、それは販売数量に比例する。HPC向けが例えば汎用向けの1000倍の価格でも許されるとか、あるいは販売数量の1割以上を占めるとかにならない限り、そうした極端な構成にはできない。
そうした理由から、再びアクセラレーターが脚光を浴びるようになってきた。汎用プロセッサーではHPCに適さず、かといってコプロセッサーを組み込めない以上、あとはアクセラレーターしか解がないからだ。
(→次ページヘ続く 「再び脚光を浴びたアクセラレーター」)
この連載の記事
-
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 - この連載の一覧へ