Confidential Computingとは
TEEでデータを保護すること
先ほど後回しにしたConfidential Computingは、ここまで説明したTEEの上位の概念になる。もともとは2019年8月に、Linux Foundationがセキュアなコンピューティング環境を構築しよう、ということで立ち上げたのがC3ことConfidential Computing Consortiumであり、オープンな形でセキュアな環境を提供するためのフレームワークや仕様の策定を行なっている。NVIDIAもこのC3のメンバーである。
ところでC3においてはConfidential Computeを「ハードウェアベースのTEEで処理を実行することで、利用中のデータを保護すること」としており、具体的には「コードの完全性(不正なプログラムが実行されない)、データの完全性(不正なデータを注入されたりしない)、データの機密性(データが外部に流出しない)、という3つの主要な特性に対して、あるレベルの保証を提供する環境」と定義されている。
レベルについては別途定義されているが、今回は別にTEEの説明をしたいわけではないので割愛するとして、HopperではこのC3の定義するTEEに準拠する形で自身もTEEを実装しており、それもあって「業界では初めてConfidential Computingに対応したGPUである」と説明している。
第4世代NVLinkを18本搭載するGH100
さて次はNVLink絡み。Hopper世代では第4世代のNVLinkが実装された。GH100の場合、このNVLinkが18本搭載される。
1リンクあたり25GB/秒(片方向あたり:双方向では50GB/秒)なので、18リンク合計では900GB/秒もの帯域をカバーする。A100の場合は、速度は同じく片方向当たり25GB/秒だが、1枚のA100から最大12リンクしか出せなかった。
これを利用したDGX H100の構成が下の画像だ。8つのH100から、それぞれ4本づつのNVLinkが、4つのNVS(NV Switch)に接続される格好だ。NVSの方は最大64ポートということで、8枚のH100程度なら十分お釣りが来る。
少し意外だったのは、この構成ならH100とNVSの間をそれぞれ4リンクづつつないで、200GB/秒にしても良かったのではないか? と思うのだが、NVLinkではポートトランキングをサポートしていないようだ(資料を調べると、Trunk動作をできなくはないようなのだが、GPUとNVSの接続には利用できないらしい)。
SHARPの動作例がこちらで、トラフィックそのものを減らすことで実効性能を最大2倍にできるというものだ。もっとも、なんでもかんでも2倍にできるわけではないので、使いどころはやや限られてくるだろう。
ちなみにNVIDIAの説明によれば、このDGX H100が最小単位として、そのDGX H100を32ユニット接続するのはそのままNVLinkで可能であり、これを超える構成はInfiniBandでつなぐという構成で、1024ユニットまで接続できるという話である。
DPX命令を利用すると
Ampere世代より7倍高速化する
それともう1つ、DPX命令についても触れておきたい。こちらはまだ詳細は明らかになっていないのだが、DPX命令とはDynamic Programming、日本語では動的計画法と呼ばれる技法である。簡単に言えば、複雑な再帰的問題を、より単純な部分問題に分解して解くアルゴリズムで、例えばゲノム解析ではSmith-Waterman法、ロボット工学ではFloyd-Warshallアルゴリズムといった手法が有名になっている。
NVIDIAがこれに対してどういう命令セットを提供しているのかが今ひとつはっきりしないのだが、NVIDIAによればGH100で搭載されたDPX命令を利用すると、こうした動的計画法の実行をAmpere世代と比較して7倍高速化できた、としている。
ということで661回と今回でGH100/H100の特徴を説明してきたが、ごらんの通り全然コンシューマー向けには要らない機能が満載であって、やはりHopperはGPGPU向け専用ということで終わりそうだ。やはりコンシューマー向けはAda Lovelaceベースのものになるだろう。
この連載の記事
-
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 -
第758回
PC
モデムをつなぐのに必要だったRS-232-CというシリアルI/F 消え去ったI/F史 - この連載の一覧へ