このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第661回

HopperはHBM3を6つ搭載するお化けチップ NVIDIA GPUロードマップ

2022年04月04日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Thread Blockを複数まとめた管理単位を新たに追加
複数のSM間でメモリーの共有や同期を高速に行なえる

 次にTBC(Thread Block Cluster)について。これは比較的小規模な処理を効率的に行なうために新たに導入された仕組みである。A100世代まで、処理はスレッドの塊(Thread Block)単位で行なわれ、このThread Blockは1つのSMに割り付けられる構成になっていた。

あくまでThread Blockがペナルティなしでアクセスできるのは、自分に割り当てられたVMのShared Memoryのみである

 SMの中で処理が完結すれば問題ないのだが、他のSMに割り当てられたメモリーの内容の参照などには余分なコストがかかることになる。そこでThread Blockを複数まとめたTBCという管理単位を新たに追加、このThread Blockに属する複数のSM間でメモリーの共有や同期を高速に行なえる仕組みを新たに追加した。

ここに出てくるInter-Block Shared memory accessが、2つ下の画像に出てくるDSMEMである

 ちなみにTBCは最大16Thread Blockまでとなっており、このTBCは1つのGPC内に収まることが保証されている。

TBCは1つのGPC内に収まる。逆に言うと、1つのGPC内に収まらないような大きな処理は、TBCの恩恵を受けられないことになる。GPCは18SM構成なのになぜ16SMなのかは、実際のSM数はGPCあたり16ないし17に制限されており、この低い方に合わせたのだと思われる

 GPC内のSM間のメモリー共有メカニズムがDSMEM(Distributed Shared Memory)で、これによりTBC内のデータ交換が高速で行なえるようになったそうだ。A100比ではレイテンシーが7分の1になったという。

あくまでもこのDSMEMは1つのGPCの中でしか使えないのだろう

 DSMEMは、256K L1 Data Cache/Shared Memoryから任意のサイズを割り当てできるそうで、サイズは任意に選べる模様だ。このTGCの利用により、64K個のFFTの処理で2倍、Longstaff-Schwartzモデル(金融工学の価格付けモデルの1つ)で2.7倍、Histogram Collectionで1.7倍の性能を発揮できるようになったとのことだった。

 メモリー周りではもう1つ、TMA(Tensor Memory Accelerator) Unitと呼ばれる仕組みが導入された。

DMAエンジンは通常1次元のアドレス生成しかできないが、TMAは最大5次元のメモリアクセスが可能、というのが大きな違いかもしれない

 もともとA100の世代で、非同期処理に向けてAsync Copyと呼ばれる仕組みが導入されている。あるスレッドでデータの処理中に、その処理の完了を待ってから次のデータアクセスをしようとすると、どうしても待ちが発生する。そこで処理の完了を待たずに次のデータアクセスを始めることで、処理が完了したら次のデータにすぐアクセスできるという仕組みだ。

 ただA100の世代では、Async Copyは実際にはSM内のLoad/Storeユニットが処理しており、事実上はあるスレッドがそうした非同期のデータアクセス処理を実施しているというだけに過ぎなかった。

 これに対し、H100世代ではデータアクセス(のためのアドレス指定)を行なうTMAというユニットが追加され、これが自動的に次のデータアクセスをしてくれる。要するにDMAエンジンみたいなものだ。これにより、より効率的にAsync Copyが可能になったとされる。

 なお先にTCGで性能が上がったという話をしたが、あの性能向上はTCGに加えてこのAsync Copyを利用したTransaction Barrierの効率化が貢献しているという話であった。これは、スレッド間の同期待ちの間、A100世代ではメモリーアクセスができないが、H100世代ではTMAを利用して次のデータの準備ができるからだ。

 ここまでスライドには出てこなかったが、GH100では6スタックのHBM3メモリーを実装しているのだが、実際にホワイトペーパーを読むと「H100 SMX5モジュールは、5スタックで80GBの容量を持つHBM3メモリーを搭載し、合計で3TB/秒のメモリー帯域を持つ。これは2年前に発表したA100の2倍のメモリー帯域である」と記述されており、実際には5スタックでの利用になっているようだ。

 つまりスタックあたり16GBであり、現状HBM3が1znm~1αnm世代 DRAMで実装されていることを考えると、16Gbitチップの8層構成と考えられる(仕様的には最大12層まで可能)。

 むしろおもしろいのはメモリー帯域である。HBM3は1024bit幅で最大6.4Gbpsの転送速度なので、このピーク値ではスタックあたり819.2GB/秒。これを5つ並べれば4TB/秒の帯域になるはずだが、上のホワイトペーパーの記述によれば3TB/秒であり、速度そのものは4.8Gbpsに抑えたものが使われていると考えられる。

 というあたりが大まかにGH100の特徴ということになる。ちなみにここまではH100 SMX5、つまりSMXモジュールのものだけを説明してきたが、これとは別にH100 PCIeというPCIeカードのものも用意されていることが明らかにされている。

 こちらはGH100を搭載しているものの、7あるいは8HPC、114SM構成で、しかもメモリーはHBM2eに変更され、また消費電力は350WとH100 SMX5の半分に抑えられている。

 ホワイトペーパーによれば「H100 SMX5 GPUの65%の性能を、50%の消費電力で実現している」とされる。先にGH100 SMX5におけるブーストクロックを1730MHzと推定したので、そこから考えるとH100 PCIeはブーストで1300MHzほどにクロックが抑えられていると思われる。

Hopperベースのコンシューマー向け製品が
仮にあったとしても中身は大分変わるハズ

 最後にコンシューマー向けへの展開であるが、少なくともGH100のままでは不可能と思われる。というのは、以下の3つの問題点があるからだ。

 1つ目は、RT Coreが存在しない(のでレイトレーシングが一切できない)こと。

 2つ目は、全体の4分の1の性能でしかグラフィック出力ができないこと。3Dレンダリングそのものは可能で、ホワイトペーパーにも「全体のうちSXM5とPCIeのH100は、どちらも2つのTPCのみグラフィック出力可能であり、Vertex/Geometry/Pixel Shaderを実行できる」と書かれている。

 3つ目は、ビデオエンコーダーであるNVENCが搭載されていないこと。NVDECつまりビデオデコーダーは搭載されているが、無理やりGPUカードに仕立ててもおそらくGeForce RTX 3050や3060程度の性能(でしかもレイトレーシングが使えない)ということになる。

 これらの問題点があるにもかかわらず価格が高騰するのが見えている。コンシューマー向けは、仮にHopperベースであったとしても中身は大分変わることになるだろう。もちろん現時点でNVIDIAはコンシューマー向け製品に関しては一切ノーコメントである。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事
1
【整備済み品】中古 ノートパソコン NEC VersaPro VKT16/15.6型・第8世代Core i5-8250U(最大動作3.4GHz)/快適メモリ8GB/ 高速SSD 256GB/Win11 Pro/MS Office 2019付属/テンキー付, Webカメラ, USB3.0, HDMI, VGA, 有線LAN, WIFI内蔵, Bluetooth/ACアダプター付属/180日間保証
【整備済み品】中古 ノートパソコン NEC VersaPro VKT16/15.6型・第8世代Core i5-8250U(最大動作3.4GHz)/快適メモリ8GB/ 高速SSD 256GB/Win11 Pro/MS Office 2019付属/テンキー付, Webカメラ, USB3.0, HDMI, VGA, 有線LAN, WIFI内蔵, Bluetooth/ACアダプター付属/180日間保証
¥26,880
2
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥36,979
3
HP ノートパソコン 15-fd 15.6インチ インテル Core Ultra 5 125H メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M7PA-AAAF)
HP ノートパソコン 15-fd 15.6インチ インテル Core Ultra 5 125H メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M7PA-AAAF)
¥134,377
4
Lenovo Chromebook クロームブック IdeaPad Flex 3i Gen8 12.2インチ インテル® プロセッサー N100搭載 メモリ4GB eMMC 64GB バッテリー駆動12.0時間 重量1.25kg アビスブルー 82XH001KJP
Lenovo Chromebook クロームブック IdeaPad Flex 3i Gen8 12.2インチ インテル® プロセッサー N100搭載 メモリ4GB eMMC 64GB バッテリー駆動12.0時間 重量1.25kg アビスブルー 82XH001KJP
¥39,800
5
Apple 2025 MacBook Pro 10 コアCPU、10 コアGPU のM5 チップ搭載ノートパソコン:Apple Intelligence のために設計、14.2 インチLiquid Retina XDR ディスプレイ、24GB ユニファイドメモリ、1TBのSSD ストレージ - スペースブラック
Apple 2025 MacBook Pro 10 コアCPU、10 コアGPU のM5 チップ搭載ノートパソコン:Apple Intelligence のために設計、14.2 インチLiquid Retina XDR ディスプレイ、24GB ユニファイドメモリ、1TBのSSD ストレージ - スペースブラック
¥296,323

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥1,880
2
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
3
【Amazon.co.jp限定】バッファロー microSD 32GB 100MB/s UHS-1 U1 microSDHC【 Nintendo Switch 対応 】V10 A1 IPX7 Full HD RMSD-032U11HA/N
【Amazon.co.jp限定】バッファロー microSD 32GB 100MB/s UHS-1 U1 microSDHC【 Nintendo Switch 対応 】V10 A1 IPX7 Full HD RMSD-032U11HA/N
¥980
4
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
5
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
6
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥5,280
7
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥699
8
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,545
9
バッファロー SDカード 128GB 100MB/s UHS-1 スピードクラス1 VideoSpeedClass10 IPX7 Full HD データ復旧サービス対応 RSDC-128U11HA/N
バッファロー SDカード 128GB 100MB/s UHS-1 スピードクラス1 VideoSpeedClass10 IPX7 Full HD データ復旧サービス対応 RSDC-128U11HA/N
¥1,980
10
バッファロー USBメモリ 32GB USB3.2(Gen1)/3.1(Gen 1)/3.0/2.0 充実サポート RUF3-K32GA-BK/N
バッファロー USBメモリ 32GB USB3.2(Gen1)/3.1(Gen 1)/3.0/2.0 充実サポート RUF3-K32GA-BK/N
¥880

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン