Confidential Computingとは
TEEでデータを保護すること
先ほど後回しにしたConfidential Computingは、ここまで説明したTEEの上位の概念になる。もともとは2019年8月に、Linux Foundationがセキュアなコンピューティング環境を構築しよう、ということで立ち上げたのがC3ことConfidential Computing Consortiumであり、オープンな形でセキュアな環境を提供するためのフレームワークや仕様の策定を行なっている。NVIDIAもこのC3のメンバーである。
ところでC3においてはConfidential Computeを「ハードウェアベースのTEEで処理を実行することで、利用中のデータを保護すること」としており、具体的には「コードの完全性(不正なプログラムが実行されない)、データの完全性(不正なデータを注入されたりしない)、データの機密性(データが外部に流出しない)、という3つの主要な特性に対して、あるレベルの保証を提供する環境」と定義されている。
レベルについては別途定義されているが、今回は別にTEEの説明をしたいわけではないので割愛するとして、HopperではこのC3の定義するTEEに準拠する形で自身もTEEを実装しており、それもあって「業界では初めてConfidential Computingに対応したGPUである」と説明している。
第4世代NVLinkを18本搭載するGH100
さて次はNVLink絡み。Hopper世代では第4世代のNVLinkが実装された。GH100の場合、このNVLinkが18本搭載される。
1リンクあたり25GB/秒(片方向あたり:双方向では50GB/秒)なので、18リンク合計では900GB/秒もの帯域をカバーする。A100の場合は、速度は同じく片方向当たり25GB/秒だが、1枚のA100から最大12リンクしか出せなかった。
これを利用したDGX H100の構成が下の画像だ。8つのH100から、それぞれ4本づつのNVLinkが、4つのNVS(NV Switch)に接続される格好だ。NVSの方は最大64ポートということで、8枚のH100程度なら十分お釣りが来る。
少し意外だったのは、この構成ならH100とNVSの間をそれぞれ4リンクづつつないで、200GB/秒にしても良かったのではないか? と思うのだが、NVLinkではポートトランキングをサポートしていないようだ(資料を調べると、Trunk動作をできなくはないようなのだが、GPUとNVSの接続には利用できないらしい)。
SHARPの動作例がこちらで、トラフィックそのものを減らすことで実効性能を最大2倍にできるというものだ。もっとも、なんでもかんでも2倍にできるわけではないので、使いどころはやや限られてくるだろう。
ちなみにNVIDIAの説明によれば、このDGX H100が最小単位として、そのDGX H100を32ユニット接続するのはそのままNVLinkで可能であり、これを超える構成はInfiniBandでつなぐという構成で、1024ユニットまで接続できるという話である。
DPX命令を利用すると
Ampere世代より7倍高速化する
それともう1つ、DPX命令についても触れておきたい。こちらはまだ詳細は明らかになっていないのだが、DPX命令とはDynamic Programming、日本語では動的計画法と呼ばれる技法である。簡単に言えば、複雑な再帰的問題を、より単純な部分問題に分解して解くアルゴリズムで、例えばゲノム解析ではSmith-Waterman法、ロボット工学ではFloyd-Warshallアルゴリズムといった手法が有名になっている。
NVIDIAがこれに対してどういう命令セットを提供しているのかが今ひとつはっきりしないのだが、NVIDIAによればGH100で搭載されたDPX命令を利用すると、こうした動的計画法の実行をAmpere世代と比較して7倍高速化できた、としている。
ということで661回と今回でGH100/H100の特徴を説明してきたが、ごらんの通り全然コンシューマー向けには要らない機能が満載であって、やはりHopperはGPGPU向け専用ということで終わりそうだ。やはりコンシューマー向けはAda Lovelaceベースのものになるだろう。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ