プロセッサーの高性能化で廃れた
アクセラレーター
話がやや逸れたので戻すと、こうしたアクセラレーターは、HPCの創成期にはよく見かけたのだが、その後はしばらく廃れていた。理由は、HPCに使われるプロセッサーそのものの高性能化である。
一番わかりやすいのはQCDOCからBlueGene/L・BlueGene/P・BlueGene/Qの系列であろうが、要するにFPUをどんどん強化してCPUコアの中に入れてしまうのが、システム的にはオーバーヘッドも少なく、性能も上がりやすいからだ。
また、この当時はそれが一番コストが安いという側面もあった。半導体業界の話になるが、2000年前後におけるNRE(Non-Recurring Engineering)コスト、要するにゼロからまったく新しいチップを作る際の最初の設計やマスク製造といったコストは、せいぜいが1000万円程度だった。
これはかなり大きいといえば大きいのだが、そのシステムが1000個のプロセッサーを使うとすれば1個あたり1万円、1万個ならば1000円でしかない。「1万個も使うか?」と思われるかもしれないが、QCDSPですら8192ノード、QCDOCは最終的に1万2288ノードなので、1万個使うのは割と現実的である。
チップの原価はダイサイズ(と歩留まり)次第だが、仮に大きめのダイが1万円としても、初期コストとあわせて1万1000円~2万円の範囲である。こうしたケースでは、あえてアクセラレーターを使わなくても、そのアクセラレーター機能を内蔵した専用チップを作った方がむしろ割安になる。
1990年代はアクセラレーター機能を内蔵した専用チップを作った方が割安だった
この状況が変わってきたのが、2000年後半からである。プロセスで言えば90nm世代あたりからであるが、NREコストが億の単位になってきたからだ。
こうなると、1万個作っても初期コストがチップ1個あたり1万円ほど乗る計算になり、かなり割安感が薄れてきた。これが65/45nmではさらにNREが増しており、28nm世代では10億まではいかないもののそれなり、28nm未満ではまさに10億円台に突入しようとしている。
つまり、製造コストを千円台に抑えたとしても初期コストの分が乗っかるため、チップの価格は数万~10万円になる計算だ。これは1万個製造した場合なので、10万個や100万個作ればもう少し現実的な価格に収まるが、逆に千個台だと論外なほどの価格になる。要するに、専用チップが急速に非現実的なソリューションになってきたのである。
その一方、汎用チップ(特にx86)は量産効果とプロセス微細化/アーキテクチャー改良により急速に性能を伸ばしており、ほぼ価格を一定に抑えながら毎年のように性能を上げてきている。
最近でこそようやく性能の伸びが鈍化したが、例えばインテルのHaswellチップに匹敵する演算性能を専用チップで作ろうとすると、これは非常に難しい。
予算を考えなければ不可能ではないが、そのチップをHaswellと同じ価格(Core i7-4790Kは5万円未満で購入できる)に収めるのは絶対に不可能だ。インテルでこれが可能なのは、生産量が桁違い(ウン億個単位)なので、NREコストがチップあたり数百円ですむためである。
ただし、Haswell単体は決して浮動小数点演算が高速なわけではない。いや、単体のFPUとしては高速だが、汎用プロセッサーとしての使い方がメインなので、消費電力あたりの浮動小数点演算性能はそう高くない。AVX命令を駆使しても1コアあたり16FLOPS/サイクルである。
Core i7-4790Kをフルに駆動した場合、定格4GHzで4コアなので256GFLOPSでTDP 88Wということで、2.91GFLOPS/Wほどの性能になる。これはIBMのBlue Gene/Qに搭載された3.72GFLOPS/Wにやや劣る程度であり、逆に言えばCore i7-4790Kを使う限りBlueGene/Q以上の性能には絶対にならないとも言える。
なぜこんなに絶対性能と性能/消費電力比が低いかといえば、「汎用だから」に尽きる。HPC市場というのはHaswellベースプロセッサーの販売量全体の中ではほんのわずかに過ぎない。HPC向けの場合、極端に言えば浮動小数点演算の性能をもっと高くし、メモリー帯域をもっと増やし、その他の機能をガンガン落としたものが好まれるが、HPC以外ではもっとバランスの取れた構成が要求される。
どちらの要求が通るかといえば、それは販売数量に比例する。HPC向けが例えば汎用向けの1000倍の価格でも許されるとか、あるいは販売数量の1割以上を占めるとかにならない限り、そうした極端な構成にはできない。
そうした理由から、再びアクセラレーターが脚光を浴びるようになってきた。汎用プロセッサーではHPCに適さず、かといってコプロセッサーを組み込めない以上、あとはアクセラレーターしか解がないからだ。
(→次ページヘ続く 「再び脚光を浴びたアクセラレーター」)

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ











