今回のスーパーコンピューターの系譜は前回に続きインテルのアクセラレーターについてである。インテルはLarrabeeの後継をHPC向け製品として提供することを決断、そこから猛然と動き始める。
HPC向けアクセラレーターに特化した
Knights Ferry
まず2010年に投入されたのが、Knights Ferryである。LarrabeeはまだGPU的な要素を残していたが、Knights FerryではテクスチャーエンジンやラスタライザーなどのGPU的な機能を完全に取り去り、純粋にHPC向けアクセラレーターにした。
この時点でインテルはこれをMIC(Many Integrated Core)アーキテクチャーと呼ぶようになる。
これに基づく最初のボードがKnights Ferryであるが、実はインテルは結構なコストをかけてKnights Ferryを開発したものの、製品として販売していない。その代わりにKnights Ferryを将来のMICアーキテクチャーに基づく製品を利用してくれそうなユーザーに配った。
Knights Ferryは最大32コア、同時128スレッドの実行が可能というもので、動作周波数は最大1.2GHzほど。
各々のコアはLarrabeeと同じ16-WideのSIMDエンジンを搭載しており、ピーク性能は614GFLOPSほどになる計算だが、この前年の2009年にNVIDIAはGF100ベースのC2050/C2070をリリースしており、こちらはFloatなら1.3TFLOPSを実現しているので、だいぶ見劣りする。
実際、Larrabeeよりは多少マシではあるものの、厳然たる性能差が存在した。また、この時点ではMICアーキテクチャーを採用したチップが他になく、開発ツールを用意しても、これを使うためのプラットフォームがない状態だった。
CUDAだとG80以降のビデオカードを購入すればそこで実装できるし、AMDのBrook+ではFire Streamが販売されていた。ところがMICに関してはこれがない。一応命令セットこそx86ながら、独自実装された16-wideのSIMDエンジンは他のx86プロセッサーには搭載されていないからだ。
そこでMICアーキテクチャーベースの製品発売に先立って、Knights Ferryを見込み客に配布した形だ。余談ながら、Knights Ferryというのはコアのコード名ではなくカードのコード名であり、コアのコード名はAuburn Isleとなっているが、これは以前Larrabee 2として開発されていたものである。
さて、内部構造であるが、各々のコアの内部を簡単にまとめたのが下の画像だ。コアの左半分は限りなくP54コアに近い。ただし、オリジナルのP54コアはシングルスレッドであり、一方MICでは4スレッドなので、これに対応する形で一部のレジスター類やレジスターファイルなどを4スレッド分用意するといった拡張がされていると思われる。
逆に右半分はLarrabeeで拡張された部分である。連載25回でLRBni(Larrabee New Instructions)の話に少し触れたが、基本的にはこのLRBniをほぼそのまま利用していると思われる。
これも余談だが、LRBniという名前は2009年頃から言われていたものの、肝心のLarrabeeがボツになったためか、公式にはLRBni(あるいはLNI)という用語は使われておらず、上の画像でも“Enhanced x86 instructions set”という表現になっている。
Knighs Ferryの発売時点で、次にKnights Cornerという製品が投入されることが明らかにされている。
このあたりはプロセスを自身で持っている強みで、45nm→32nm→22nmと世代毎にトランジスタ数を倍増できるため、最初はコア数が少なくてもプロセス微細化で簡単に性能を倍増できることになる。
2011年のISC 11(International Supercomputing Conference)にあわせ、インテルはKnights Ferryの製品写真やダイ写真を含む情報を公開した。
ここで、すでにそれなりの性能が実現できることをアピールした。LU分解(行列式を解く方式の1つ)にXeonとKinghts Ferryを組み合わせて772GFLOPS、同じくXeonとKinghts Ferryを組み合わせたSGEMM(単精度の行列演算)で1TLOPS以上、Knights Ferryを8枚組み合わせたSGEMMで7.4TFLOPSの性能を出したとしている。
→次のページヘ続く (Xeonブランドで登場したKnights Corner)
この連載の記事
-
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 - この連載の一覧へ