GPGPUにx86コアを採用しようとするも
手ごろなx86コアが存在しなかった
インテルがGPGPUを作るにあたって問題だったのは、手ごろなx86コアがなかったことだ。GPGPUに利用するためには算術演算に特化して、ほぼ1命令/サイクルで実行できるような多数のコアを集約する必要がある。連載310回で触れたNVIDIAのG80ベースのGeForce 8800 GTXならば、128個のストリーミングプロセッサーが1350MHzで動作している。
これに匹敵するような、高効率でサイズの小さいx86コアがあれば、理論上はx86で置き換えることは可能だろうが、あいにくそんなものはなかった。G80コアが登場したのは2006年だが、この当時ではインテルはNetburstとCoreの2種類のコアで、どちらもかなりのダイサイズを喰うものだった。
当時はまだ開発中だったAtom(Bonnellコア)が辛うじて……というあたり。ただG80コアは90nmプロセスを使っても480mm2強で済んでいた。ラフな言い方をすれば、ストリーミングプロセッサー1個あたりのダイサイズは3.75mm2である。
対してBonnellコアベースのAtom 230は1コア/2スレッドで24.2mm2なので、仮想2コアとみなしても1コアあたり12.1mm2で3倍以上になる。またAtom 230のTDPは4Wなので、これを128個集約したら512WものTDPになり、155WのTDPで済んでいるG80の3倍以上も多い。
Atomですらこれなので、NetburstやCoreではさらにギャップが大きくなるわけで、こうした最新コアを利用するのはあきらめざるを得ない。では新規にGPUに適したx86コアを新規に作るか、というとそこまでの時間もコストもかけられない。
そこでLarrabeeの開発陣が取った策は、P54コアを引っ張り出し、そこに巨大(16way)なSIMDエンジン(16-wide Vector ALU)を組み合わせたことだ。こうすると1コアで16ストリーミングプロセッサー相当になるため、これを16個並べれば、例えばG80の倍のストリーミングプロセッサーの構成ということになる。あとは動作速度の問題だけである。少なくとも設計段階ではそんな目論見だったのだろうと思われる。
Larrabeeの動作サンプルは2009年のIDF Beijingで発表された。この手持ちのウェハー部を拡大、回転させてひずみを補正して、色調補正をかけたのがその下の画像だ。
縦10個、横13個といったところで、ここから計算するとダイ寸法は30×23mmで690mm2もの巨大なダイということになる。45mmプロセスを使ってすらこれだから、G80などと同じ90nmプロセスで作ったら怖いことになっていただろう。
とはいえ、もし2006年にこのLarrabeeが存在していたら、あるいは競争力はあったかもしれない。ところがLarrabeeが発表された2009年といえば、NVIDIAはもう55nmプロセスを使ったGT200コア(240ストリーミングプロセッサー/1475MHz駆動でTDPは204W)ベースのGeForce GTX 285を、AMDはRV770コア(800シェーダー/750MHz駆動でTDPは150W)ベースのRadeon HD 4870をそれぞれ発売していた時期で、こうした競合製品と比べるとLarrabeeはだいぶ見劣りする。
加えて実際には性能上のボトルネックも存在した(関連リンク)こともあり、結局製品化にはつながらずに終わる。実際16コアでもGPUとしては不十分なので、仮にこれを無理やり外付けビデオカードにするにはデュアルGPU化でもしなければ性能として拮抗しない(仮にやってもオーバーヘッドが大きくて性能はやっぱり出ないはずだが)。
あるいは統合グラフィック向けなら多少性能が下がっても許されるかもしれないが、690mm2のGPUダイは統合というレベルの問題ではないだろう。要するに、GPUに組み込むためのコアとして、やはりx86コアを無理やり突っ込むのには無理があったということだ。
(→次ページヘ続く 「LarrabeeをHPC用途で利用」)
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第869回
PC
半導体プロセスの新たな覇権! インテルのDNNプロセッサーはAMDやMetaを凌駕する配線密度と演算密度 -
第868回
PC
物理IPには真似できない4%の差はどこから生まれるか? RTL実装が解き放つDimensity 9500の真価 -
第867回
PC
計算が速いだけじゃない! 自分で電圧を操って実力を出し切る賢すぎるAIチップ「Spyre」がAI処理を25%も速くする -
第866回
PC
NVIDIAを射程に捉えた韓国の雄rebellionsの怪物AIチップ「REBEL-Quad」 -
第865回
PC
1400WのモンスターGPU「Instinct MI350」の正体、AMDが選んだ効率を捨ててでも1.9倍の性能向上を獲る戦略 -
第864回
PC
なぜAMDはチップレットで勝利したのか? 2万ドルのウェハーから逆算する経済的合理性 -
第863回
PC
銅配線はなぜ限界なのか? ルテニウムへの移行で変わる半導体製造の常識と課題 -
第862回
PC
「ビル100階建て相当」の超難工事! DRAM微細化が限界を超え前人未到の垂直化へ突入 -
第861回
PC
INT4量子化+高度な電圧管理で消費電力60%削減かつ90%性能アップ! Snapdragon X2 Eliteの最先端技術を解説 -
第860回
PC
NVIDIAのVeraとRubinはPCIe Gen6対応、176スレッドの新アーキテクチャー搭載! 最高クラスの性能でAI開発を革新 -
第859回
デジタル
組み込み向けのAMD Ryzen AI Embedded P100シリーズはZen 5を最大6コア搭載で、最大50TOPSのNPU性能を実現 - この連載の一覧へ











