NVIDIA、DGX GH200 AI スーパーコンピューターを発表

NVIDIA
2023年05月29日

NVIDIA
256 基の Grace Hopper Superchip を巨大な 1 エクサフロップの 144TB GPU として接続した新しいクラスの AI スーパーコンピューターが、生成 AI、レコメンダーシステム、データ処理を強化する巨大モデルに対応

台湾、台北 – COMPUTEX – 2023 年 5 月 29 日 – NVIDIA は本日、新しいクラスの大規模メモリ AI スーパーコンピューターを発表しました。NVIDIA(R) GH200 Grace Hopper Superchipと NVIDIA NVLink(R) Switch System を搭載したこのNVIDIA DGX ™ スーパーコンピューターは、生成 AI 言語アプリケーション、レコメンダーシステム、データ分析ワークロード用の巨大な次世代モデルの開発を可能にします。

NVIDIA DGX GH200（https://www.nvidia.com/en-us/data-center/dgx-gh200/）の大規模な共有メモリ空間は、NVLink インターコネクトテクノロジと NVLink Switch System を使用して 256 基の GH200 Superchip を結合し、単一の GPU として実行可能にします。これにより、1 エクサフロップのパフォーマンスと 144 テラバイトの共有メモリが提供されます。これは、2020年に発表された前世代の NVIDIA DGX A100 システムのほぼ 500 倍のメモリ容量です。

NVIDIA の創業者/CEO であるジェンスンフアン (Jensen Huang) は次のように述べています。「生成 AI、大規模言語モデル、レコメンダーシステムは現代の経済におけるデジタルエンジンです。DGX GH200 AI スーパーコンピューターは、NVIDIA の最先端のアクセラレーテッドコンピューティングとネットワーキングテクノロジを統合して、AI のフロンティアを拡大します」

NVIDIA NVLink テクノロジにより AI が大規模に拡張
GH200 Superchip は、NVIDIA NVLink-C2C チップインターコネクトを使用して、Arm ベースの NVIDIA Grace™ CPU と NVIDIA H100 TensorコアGPU を同じパッケージ内で組み合わせることで、従来の CPU とGPU間の PCIe 接続の必要性を排除します。これにより、最新の PCIe テクノロジと比較して GPU と CPU 間の帯域幅が 7 倍に増加し、インターコネクトの消費電力が 5 倍以上削減され、DGX GH200 スーパーコンピューターのための 600 GB のHopperアーキテクチャのGPU ビルディングブロックを提供します。

DGX GH200 は、Grace Hopper Superchip と NVIDIA NVLink Switch System を組み合わせた初のスーパーコンピューターです。これは、DGX GH200 システム内のすべての GPU を 1 基のGPUとして連携できるようにする新しいインターコネクトです。前世代のシステムでは、パフォーマンスを損なうことなく 1 基の GPU として利用するには、8 基の GPU を NVLink で組み合わせることしかできませんでした。

DGX GH200 アーキテクチャは、前世代の 48倍のNVLinkの帯域幅を提供し、単一の GPU をプログラミングする簡単さで大規模な AI スーパーコンピューターのパワーを実現します。

AI パイオニアのための新しいリサーチツール
Google Cloud、Meta、そしてMicrosoft は、生成 AI ワークロードの機能を探索するために DGX GH200 を活用予定の最初の企業の 1 つです。NVIDIA はまた、DGX GH200 のデザインをクラウドサービスプロバイダーや他のハイパースケーラーに設計図として提供し、自社のインフラストラクチャに合わせてさらにカスタマイズできるようにする予定です。

「高度な生成モデルを構築するには、AI インフラストラクチャへの革新的なアプローチが必要です」と語るのは、Google Cloud のコンピューティング担当バイスプレジデントの Mark Lohmeyer 氏です。「Grace Hopper Superchip における NVLink の新たなスケールと共有メモリは、大規模 AI の主要なボトルネックに対処するものであり、Google Cloud と当社の生成 AI イニシアチブにてその機能を活用することを楽しみにしています」

Meta のインフラストラクチャ、AI システムおよびアクセラレーテッドプラットフォーム担当バイスプレジデント、Alexis Björlin 氏は次のように述べています。「AI モデルが大きくなるにつれて、増大する需要に合わせて拡張できる強力なインフラストラクチャが必要になります。NVIDIA の Grace Hopper のデザインによって、研究者が最大規模の課題を解決するための新しいアプローチを探索できるようになるでしょう」

Microsoft の Azure Infrastructure 担当コーポレートバイスプレジデントである Girish Bablani 氏は、以下のように述べています。「大規模な AI モデルのトレーニングは、従来、リソースと時間がかかる作業でした。テラバイトサイズのデータセットを扱う潜在力を秘めた DGX GH200 によって、開発者はより大きなスケールで高度な研究をより早く進めることができるようになるでしょう」

研究開発を促進する新しい NVIDIA Helios スーパーコンピューター
NVIDIA は、研究者や開発チームの作業を強化するために、独自の DGX GH200 ベースの AI スーパーコンピューターを構築しています。NVIDIA Helios と名付けられたこのスーパーコンピューターは、4 つの DGX GH200 システムを搭載します。

Helios スーパーコンピューターの各システムは、最大 400Gb/s の帯域幅を備えた NVIDIA Quantum-2 InfiniBand ネットワーキングで相互接続され、大規模な AI モデルをトレーニングするためのデータスループットを強化します。Helios は 1,024 基の Grace Hopper Superchip を搭載し、年末までに稼働を開始する予定です。

完全に統合され、巨大モデルのために構築
DGX GH200 スーパーコンピューターには、最大規模の AI およびデータ分析ワークロードにターンキーのフルスタックソリューションを提供する NVIDIA ソフトウェアが含まれています。NVIDIA Base Command™ ソフトウェアは、AI ワークフロー管理、エンタープライズグレードのクラスター管理、そしてコンピューティング、ストレージ、ネットワークインフラストラクチャを高速化するライブラリ、および AI ワークロードの実行に最適化されたシステムソフトウェアを提供します。

NVIDIA AI プラットフォームのソフトウェアレイヤーである NVIDIA AI Enterprise（https://www.nvidia.com/ja-jp/data-center/products/ai-enterprise/）も含まれています。生成 AI、コンピュータービジョン、音声 AI などを含む実稼働のための AI 開発と展開を効率化するための 100 を超えるフレームワーク、事前トレーニング済みモデル、開発ツールを提供します。

提供予定
NVIDIA DGX GH200 スーパーコンピューターは、年末までに提供が開始される予定です。

COMPUTEX 2023 の基調講演（https://www.nvidia.com/ja-jp/events/computex/）でフアンが NVIDIA DGX GH200 スーパーコンピューターについて説明する様子を、リプレイでご覧ください。

NVIDIA について
1993年の創業以来、NVIDIA（NASDAQ：NVDA）はアクセラレーテッドコンピューティングのパイオニアです。同社が 1999 年に発明した GPU は、PC ゲーム市場の成長を促進し、コンピューターグラフィックスを再定義して、現代の AI の時代に火をつけながら、産業用メタバースの創造を後押ししています。NVIDIA は現在、業界を再形成しているデータセンター規模の製品を提供するフルスタックコンピューティング企業です。詳細については、https://nvidianews.nvidia.com/ をご参照ください。