このページの本文へ

前へ 1 2 3 次へ

ロードマップでわかる!当世プロセッサー事情 第684回

中国Birenが作るGPGPUのようなAIプロセッサーBR100 AIプロセッサーの昨今

2022年09月12日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

TF32+という独特なフォーマットをサポート

 次がT-coreである。こちらも詳細はあまり明らかになっていないのだが、MMA(行列乗加算)や畳み込みを高速化する、というあたりはNVIDIAのTensor CoreやAMDのMatrix SIMD、インテルのXMXなどと同じもののようだ。

強いて違いを挙げるとすれば、競合製品よりユニット数が少ないというあたりだろうか? といっても16SPC×16EUでダイあたり256個だから十分と言う気もする

 このT-coreはMMAを行なえるから、GEMMなどの科学技術演算にも使えることになる。もっとも最大でもFP32だから、科学技術計算といっても使えるところはやや限られることになるが。

これは要するに16個のEUのT-Coreを連携させて動かすことで、効率的にGEMMの演算が可能になるという話である。それを示すのに2.5Dと表現しているあたりはわからなくもないが、少し違う気もする

 このT-Coreで特徴的なのは、TF32+という独特なフォーマットをサポートしていることだ。大昔のATIのGPUは内部が24bit構成になっており、これでFPを扱うとFP24になっていたし、最近だとAchronixのFPGAは内部でFP24をサポートしているから全然例がないわけではないが、あまり一般的ではない。

普通はこれはFP24と言わないだろうか?

 TF32に比べると仮数部が10bit→15bitに増えているぶん、精度が32倍向上しているとは言っても、そもそも仮数部の精度を上げてもそれほど全体としての精度向上につながらないからこそ昨今のAIプロセッサーは学習でもTF32やBF16などを使うようになっていることを考えると、これのメリットがどこまであるのかははっきりしない。

 ただ記事冒頭の画像にもあるように、TF32+を使うとピークパフォーマンスがFP32に比べて倍になっているあたりは、性能と精度のバランスを取る上でサポートした方が良いと判断したのだろうが、このあたりはトレードオフの結果をグラフかなにかで示して欲しかった気もする。

 また前ページの2つ目の画像を見ると、EUの一番下にTDA(Tensor Data Accelerator)と呼ばれるユニットが配されているが、その詳細が下の画像だ。

TDAの詳細。この説明だけ読むと、TDAはT-core/V-coreからのリクエストを分析して、ある種のプリフェッチに近い処理まで行なうようにも読めなくもないのだが、実際のところどの程度まで自動的に処理を行なえるのかはやや不明である

 V-coreの場合は明示的にcoreからのロード/ストアー命令を受けて動く形だが、T-coreの場合は次の演算が始まる前に自動的にロードが、演算が終わるとストアーがそれぞれ発行されるようで、そのリクエストに応じてアドレス計算とかOut-of-bound Accessの制御などを自動的に行なってくれる仕組みだ。

 要するにCPUコアのLSUやAGU(Address Generation Unit)などが行なっている役割だが、通常のLSUやAGUと異なるのは、これがV-coreやT-coreと独立に動くことと、T-coreの場合はTensor Descriptor(どんな形でデータを格納する/格納されるか)を自身で判断することだろうか。

 またBR100では、2次キャッシュおよびメモリーに関して、それをUMAで扱うことも、NUMAで扱うこともできるのもやや珍しい。アクセスの効率化を考えれば、個々のSPCは自分のローカルのメモリー(2次キャッシュの一部)を排他的に扱うのが一番良い。

もともと2次キャッシュの一部はスクラッチパッドとして扱うことも可能であり、ここで言うNUMA Mem/UMA Memはそのスクラッチパッド領域を指すと思われる

 これだと複数のSPCで処理を分担する際に、一度HBMなり2次キャッシュ経由でデータの転送を行なうことになり、場合によってはむしろ効率が落ちる。そうした場合に、すべての2次キャッシュというかローカルメモリーをUMA的に扱えるようにすれば、むしろ効率が良くなるという話である。

 ただこれを混在できるのか(例えば3つのSPCはUMAとして扱い、残りの1つはNUMAのままにできるか)は不明である(なんとなくできなそうな気がする)。

 もう1つ、よくわからないのがReduction Engineである。そのReductionの説明が下の画像だ。

Embedding Acceleratorの方は、テーブルの計算をSPCに渡す前に2次キャッシュ内で済ませてしまうという、Computation Memory的な動作を目指しているように見える

 最初は可逆圧縮メカニズムかなにかと思ったのだが、この左側を見る限り、複数のSPCが同一のメモリー領域をアクセスするようなケースでは、単一の2次キャッシュ領域を共有するようにすることでデータの重複持ちを避けるということらしい。

 共有2次キャッシュなら当然では? と思うかもしれないが、BR100/104の場合はNUMAモードもあるから、基本SPCごとに2次キャッシュにデータをロードすることになる。

 ところがUMAモードの場合は、Reduction Engineが「どこの2次キャッシュにそのデータがあるか」を把握して、重複して持たないような工夫が施されるようだ。またTable Lookupを高速化するアクセラレーターも搭載されているようだ。

 なんというか、GPU的な構造を持っている部分もあるが、全体としてみるとGPUというよりはやはりAIプロセッサー的な色合いが非常に濃いもので、ターゲットはやはりAIプロセッサー向けであろう。HPC向けにはあまり向かない構成である。

 問題はこれがいくらで販売されるか? というあたりだろうか。NVIDIAのH100やAMDのInstinct MI200/300、あるいはインテルのPonte Vecchioなどに比べると全体的には保守的な構成で、こうしたハイエンドGPGPUにはピーク性能ではおよばないが、その分安ければ“Poorman's DGX”的な位置付けで売れそうには思う。

 中小クラウドプロバイダーなどでは、案外導入の余地はありそうに思う。ただフルに性能を発揮しようとすると、BR100/104独特のメカニズムをきちんと使ってやる必要がありそうで、そのあたりに少し難があるかもしれない。

前へ 1 2 3 次へ

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
1
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥35,129
2
【整備済み品】富士通 A748 15.6型 第8世代CPU Core i3-8130U /Windows11/MS Office2019搭載/初期設定不要/DVDドライブ/WIFI/Bluetooth/HDMI/USB3.0/テンキー(Core i3-8th, メモリ8GBSSD256GB)
【整備済み品】富士通 A748 15.6型 第8世代CPU Core i3-8130U /Windows11/MS Office2019搭載/初期設定不要/DVDドライブ/WIFI/Bluetooth/HDMI/USB3.0/テンキー(Core i3-8th, メモリ8GBSSD256GB)
¥19,880
3
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 WUXGA+ タブレットPC Windows11 Pro MS Office H&B 2019 第7世代 Core m3-7Y30 メモリ4GB SSD128GB LTE対応 無線LAN Webカメラ タッチペン付属 USB-C 初期設定済み 中古パソコン
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 WUXGA+ タブレットPC Windows11 Pro MS Office H&B 2019 第7世代 Core m3-7Y30 メモリ4GB SSD128GB LTE対応 無線LAN Webカメラ タッチペン付属 USB-C 初期設定済み 中古パソコン
¥11,800
4
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - スターライト
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - スターライト
¥224,800
5
Apple 2026 MacBook Neo A18 Proチップ搭載13インチノートブック:AIとApple Intelligenceのために設計、Liquid Retinaディスプレイ、8GBユニファイドメモリ、512GB SSDストレージ、1080p FaceTime HDカメラ、Touch ID - ブラッシュ
Apple 2026 MacBook Neo A18 Proチップ搭載13インチノートブック:AIとApple Intelligenceのために設計、Liquid Retinaディスプレイ、8GBユニファイドメモリ、512GB SSDストレージ、1080p FaceTime HDカメラ、Touch ID - ブラッシュ
¥137,800

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,680
2
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
3
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
4
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
5
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,616
6
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
¥1,040
7
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,899
8
ソニー ゲーミングイヤホン INZONE Buds:WF-G700N Fnatic監修 / ワイヤレス / 低遅延2.4GHzワイヤレス接続 USBType-Cトランシーバー同梱 / LE Audio対応 / アクティブノイズキャンセリング / 立体音響 / 最大約24時間バッテリー / 急速充電 / マイク付き / PS5 スマホ PC Switch ホワイト
ソニー ゲーミングイヤホン INZONE Buds:WF-G700N Fnatic監修 / ワイヤレス / 低遅延2.4GHzワイヤレス接続 USBType-Cトランシーバー同梱 / LE Audio対応 / アクティブノイズキャンセリング / 立体音響 / 最大約24時間バッテリー / 急速充電 / マイク付き / PS5 スマホ PC Switch ホワイト
¥20,800
9
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
¥2,680
10
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,519

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン