プロセッサーの高性能化で廃れた
アクセラレーター
話がやや逸れたので戻すと、こうしたアクセラレーターは、HPCの創成期にはよく見かけたのだが、その後はしばらく廃れていた。理由は、HPCに使われるプロセッサーそのものの高性能化である。
一番わかりやすいのはQCDOCからBlueGene/L・BlueGene/P・BlueGene/Qの系列であろうが、要するにFPUをどんどん強化してCPUコアの中に入れてしまうのが、システム的にはオーバーヘッドも少なく、性能も上がりやすいからだ。
また、この当時はそれが一番コストが安いという側面もあった。半導体業界の話になるが、2000年前後におけるNRE(Non-Recurring Engineering)コスト、要するにゼロからまったく新しいチップを作る際の最初の設計やマスク製造といったコストは、せいぜいが1000万円程度だった。
これはかなり大きいといえば大きいのだが、そのシステムが1000個のプロセッサーを使うとすれば1個あたり1万円、1万個ならば1000円でしかない。「1万個も使うか?」と思われるかもしれないが、QCDSPですら8192ノード、QCDOCは最終的に1万2288ノードなので、1万個使うのは割と現実的である。
チップの原価はダイサイズ(と歩留まり)次第だが、仮に大きめのダイが1万円としても、初期コストとあわせて1万1000円~2万円の範囲である。こうしたケースでは、あえてアクセラレーターを使わなくても、そのアクセラレーター機能を内蔵した専用チップを作った方がむしろ割安になる。
この状況が変わってきたのが、2000年後半からである。プロセスで言えば90nm世代あたりからであるが、NREコストが億の単位になってきたからだ。
こうなると、1万個作っても初期コストがチップ1個あたり1万円ほど乗る計算になり、かなり割安感が薄れてきた。これが65/45nmではさらにNREが増しており、28nm世代では10億まではいかないもののそれなり、28nm未満ではまさに10億円台に突入しようとしている。
つまり、製造コストを千円台に抑えたとしても初期コストの分が乗っかるため、チップの価格は数万~10万円になる計算だ。これは1万個製造した場合なので、10万個や100万個作ればもう少し現実的な価格に収まるが、逆に千個台だと論外なほどの価格になる。要するに、専用チップが急速に非現実的なソリューションになってきたのである。
その一方、汎用チップ(特にx86)は量産効果とプロセス微細化/アーキテクチャー改良により急速に性能を伸ばしており、ほぼ価格を一定に抑えながら毎年のように性能を上げてきている。
最近でこそようやく性能の伸びが鈍化したが、例えばインテルのHaswellチップに匹敵する演算性能を専用チップで作ろうとすると、これは非常に難しい。
予算を考えなければ不可能ではないが、そのチップをHaswellと同じ価格(Core i7-4790Kは5万円未満で購入できる)に収めるのは絶対に不可能だ。インテルでこれが可能なのは、生産量が桁違い(ウン億個単位)なので、NREコストがチップあたり数百円ですむためである。
ただし、Haswell単体は決して浮動小数点演算が高速なわけではない。いや、単体のFPUとしては高速だが、汎用プロセッサーとしての使い方がメインなので、消費電力あたりの浮動小数点演算性能はそう高くない。AVX命令を駆使しても1コアあたり16FLOPS/サイクルである。
Core i7-4790Kをフルに駆動した場合、定格4GHzで4コアなので256GFLOPSでTDP 88Wということで、2.91GFLOPS/Wほどの性能になる。これはIBMのBlue Gene/Qに搭載された3.72GFLOPS/Wにやや劣る程度であり、逆に言えばCore i7-4790Kを使う限りBlueGene/Q以上の性能には絶対にならないとも言える。
なぜこんなに絶対性能と性能/消費電力比が低いかといえば、「汎用だから」に尽きる。HPC市場というのはHaswellベースプロセッサーの販売量全体の中ではほんのわずかに過ぎない。HPC向けの場合、極端に言えば浮動小数点演算の性能をもっと高くし、メモリー帯域をもっと増やし、その他の機能をガンガン落としたものが好まれるが、HPC以外ではもっとバランスの取れた構成が要求される。
どちらの要求が通るかといえば、それは販売数量に比例する。HPC向けが例えば汎用向けの1000倍の価格でも許されるとか、あるいは販売数量の1割以上を占めるとかにならない限り、そうした極端な構成にはできない。
そうした理由から、再びアクセラレーターが脚光を浴びるようになってきた。汎用プロセッサーではHPCに適さず、かといってコプロセッサーを組み込めない以上、あとはアクセラレーターしか解がないからだ。
(→次ページヘ続く 「再び脚光を浴びたアクセラレーター」)
この連載の記事
-
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ - この連載の一覧へ