GPGPUにx86コアを採用しようとするも
手ごろなx86コアが存在しなかった
インテルがGPGPUを作るにあたって問題だったのは、手ごろなx86コアがなかったことだ。GPGPUに利用するためには算術演算に特化して、ほぼ1命令/サイクルで実行できるような多数のコアを集約する必要がある。連載310回で触れたNVIDIAのG80ベースのGeForce 8800 GTXならば、128個のストリーミングプロセッサーが1350MHzで動作している。
これに匹敵するような、高効率でサイズの小さいx86コアがあれば、理論上はx86で置き換えることは可能だろうが、あいにくそんなものはなかった。G80コアが登場したのは2006年だが、この当時ではインテルはNetburstとCoreの2種類のコアで、どちらもかなりのダイサイズを喰うものだった。
当時はまだ開発中だったAtom(Bonnellコア)が辛うじて……というあたり。ただG80コアは90nmプロセスを使っても480mm2強で済んでいた。ラフな言い方をすれば、ストリーミングプロセッサー1個あたりのダイサイズは3.75mm2である。
対してBonnellコアベースのAtom 230は1コア/2スレッドで24.2mm2なので、仮想2コアとみなしても1コアあたり12.1mm2で3倍以上になる。またAtom 230のTDPは4Wなので、これを128個集約したら512WものTDPになり、155WのTDPで済んでいるG80の3倍以上も多い。
Atomですらこれなので、NetburstやCoreではさらにギャップが大きくなるわけで、こうした最新コアを利用するのはあきらめざるを得ない。では新規にGPUに適したx86コアを新規に作るか、というとそこまでの時間もコストもかけられない。
そこでLarrabeeの開発陣が取った策は、P54コアを引っ張り出し、そこに巨大(16way)なSIMDエンジン(16-wide Vector ALU)を組み合わせたことだ。こうすると1コアで16ストリーミングプロセッサー相当になるため、これを16個並べれば、例えばG80の倍のストリーミングプロセッサーの構成ということになる。あとは動作速度の問題だけである。少なくとも設計段階ではそんな目論見だったのだろうと思われる。
Larrabeeの動作サンプルは2009年のIDF Beijingで発表された。この手持ちのウェハー部を拡大、回転させてひずみを補正して、色調補正をかけたのがその下の画像だ。
縦10個、横13個といったところで、ここから計算するとダイ寸法は30×23mmで690mm2もの巨大なダイということになる。45mmプロセスを使ってすらこれだから、G80などと同じ90nmプロセスで作ったら怖いことになっていただろう。
とはいえ、もし2006年にこのLarrabeeが存在していたら、あるいは競争力はあったかもしれない。ところがLarrabeeが発表された2009年といえば、NVIDIAはもう55nmプロセスを使ったGT200コア(240ストリーミングプロセッサー/1475MHz駆動でTDPは204W)ベースのGeForce GTX 285を、AMDはRV770コア(800シェーダー/750MHz駆動でTDPは150W)ベースのRadeon HD 4870をそれぞれ発売していた時期で、こうした競合製品と比べるとLarrabeeはだいぶ見劣りする。
加えて実際には性能上のボトルネックも存在した(関連リンク)こともあり、結局製品化にはつながらずに終わる。実際16コアでもGPUとしては不十分なので、仮にこれを無理やり外付けビデオカードにするにはデュアルGPU化でもしなければ性能として拮抗しない(仮にやってもオーバーヘッドが大きくて性能はやっぱり出ないはずだが)。
あるいは統合グラフィック向けなら多少性能が下がっても許されるかもしれないが、690mm2のGPUダイは統合というレベルの問題ではないだろう。要するに、GPUに組み込むためのコアとして、やはりx86コアを無理やり突っ込むのには無理があったということだ。
(→次ページヘ続く 「LarrabeeをHPC用途で利用」)
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ