今回のスーパーコンピューターの系譜はNVIDIAのGPUについてだ。ClearSpeedがグラフィックに見切りをつけて汎用の数値計算アクセラレーターに舵を切った2002年という年は、NVIDIAがNV30を発表した年でもある。
NV30コア搭載のGeForce FX 5800
NV30については以前にGPU黒歴史で紹介したが、旧3dfxの設計チームが手がけた、色々な意味で意欲的過ぎた製品である。
製品としての成功/失敗はとりあえずおいておき、ここでアーキテクチャー的に大きな転換を行なった(関連記事)のは重要なポイントである。もっともこのNV30のような実装は難しいということで、次の世代ではこのアーキテクチャーそのものが放棄されてしまったわけだが、その中でも捨てられなかったものがある。それはソフトウェアまわりだ。
ゲーム以外にも使えるよう設計した
描画エンジン「CineFX」
NVIDIAは「GeForce FX 5800」に搭載された描画エンジンを「CineFX」と称した。GeForce FX 5800世代に搭載されたのが「CineFX 1.0」、次のGeForce FX 5900に搭載したのが「CineFX 2.0」、GeForce 6シリーズに搭載したのが「CineFX 3.0」、GeForce 7シリーズが「CineFX 4.0」となっており、ここでCineFXシリーズは終了している。
以下の画像はNV30のリリース前に、NVIDIAがSIGGRAPH 2002で発表したCineFXのアーキテクチャーの解説である。そのCineFXとは、DirectX 8から導入されたバーテックス・シェーダー/ピクセル・シェーダーをより高機能化したものだ。
下の画像はバーテックス・シェーダーの機能比較である。R300というのはATIのR300コア、つまりRadeon 9000シリーズの比較である。バーテックス・シェーダーは頂点計算などを行なうものだが、DirectX 8.0に実装されているバーテックス・シェーダー1.0/1.1は非常に機能が少なく、さらに128命令以内に収めないといけないため、扱えるプログラムサイズもごく限られる。
R300も内部的にこうした制限を拡張しているが、CineFXではこれを大幅に拡張しているのがわかる。また扱える命令に関しても、数値計算に役立ちそうな命令が各種追加されている。さらにデータ型も大幅に拡張された。このデータ型については説明が必要だろう。
DirectX 8でサポートされるのは、RGB(+αチャネル)が各8bitの整数型で、合計すると32bitという勘定だ。同様にR300ではこれがRGB(+αチャネル)が各々24bitの浮動小数点、CineFXでは各々32bitの浮動小数点をサポートする。
24bitという微妙な数字は、16bitでは精度が十分ではなく、32bitでは扱えるデータの範囲が大きくなりすぎてグラフィックの描画には無駄が多いというあたりからの判断だと思われる。
CineFXは16bit FPと32bit FPの両方をサポートしている。というのも24bitはIEEEのデータフォーマットとしては標準化されておらず、GPUの中だけで使うならともかく外部とのデータ交換を考えると毎回フォーマット変換が必要になり、無駄が多いためだ。
ただCineFXは、あくまで高性能な描画向けシェーダー言語であって、当時の放送業界向けCGですら32bit FPを使うことはマレだった。それもあってか、説明会で「一応32bit FPはサポートはしているが、実際に使うと遅い。メインは16bit FPになると考えている」といった説明があった。
CineFXを利用するための言語としてNVIDIAが提供したのがCgである。こちらの見かけはDirectXのHLSL(High Level Shader Language)に良く似ている。というよりHLSLがマイクロソフトとNVIDIAの共同開発なので似ていて当然というべきだろう。
この後CineFXはDirectX(シェーダーモデル)のバージョンアップにあわせて4.0までバージョンを上げていき、これにともないCgも対応のためにバージョンをあげ、最終的に1.2までバージョンを上げる。
ただ、CineFX 4.0に対応するDirectX 9(シェーダーモデル3.0)の世代で、シェーダー側が十分高機能になってしまったため、当初ほどのCineFXの優位さはなくなってしまった。
→次のページヘ続く (DirectXにお株を奪われるCineFX)
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第868回
PC
物理IPには真似できない4%の差はどこから生まれるか? RTL実装が解き放つDimensity 9500の真価 -
第867回
PC
計算が速いだけじゃない! 自分で電圧を操って実力を出し切る賢すぎるAIチップ「Spyre」がAI処理を25%も速くする -
第866回
PC
NVIDIAを射程に捉えた韓国の雄rebellionsの怪物AIチップ「REBEL-Quad」 -
第865回
PC
1400WのモンスターGPU「Instinct MI350」の正体、AMDが選んだ効率を捨ててでも1.9倍の性能向上を獲る戦略 -
第864回
PC
なぜAMDはチップレットで勝利したのか? 2万ドルのウェハーから逆算する経済的合理性 -
第863回
PC
銅配線はなぜ限界なのか? ルテニウムへの移行で変わる半導体製造の常識と課題 -
第862回
PC
「ビル100階建て相当」の超難工事! DRAM微細化が限界を超え前人未到の垂直化へ突入 -
第861回
PC
INT4量子化+高度な電圧管理で消費電力60%削減かつ90%性能アップ! Snapdragon X2 Eliteの最先端技術を解説 -
第860回
PC
NVIDIAのVeraとRubinはPCIe Gen6対応、176スレッドの新アーキテクチャー搭載! 最高クラスの性能でAI開発を革新 -
第859回
デジタル
組み込み向けのAMD Ryzen AI Embedded P100シリーズはZen 5を最大6コア搭載で、最大50TOPSのNPU性能を実現 -
第858回
デジタル
CES 2026で実機を披露! AMDが発表した最先端AIラックHeliosの最新仕様を独自解説 - この連載の一覧へ











