NVIDIAのVeraとRubinはPCIe Gen6対応、176スレッドの新アーキテクチャー搭載！最高クラスの性能でAI開発を革新

2026年01月26日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

次世代AIプラットフォーム「Rubin」

　Veraに比べるとまだ謎が多く、情報が示されていないのがRubinである。昨年のGTCのスライドは72 GPUシステムとしての性能であり、今回はRubin単体の性能が示されたのが新しいといえば新しいのだが、まったく新しい情報と言えばトランジスタ数が3360億個であると示された程度だ。

Rubin単体の性能。GTCのスライドではFP8のトレーニングがFP4の3分の1の性能であるとされており、FP4のトレーニングは推論の3分の2の性能と推定されたが、今回ほぼこれに近い値(35PF:50PF＝0.7倍)であることが確認できた

　ただRubinに関しては、テクニカルブログの方でもう少し細かい話が出てきたので、こちらをメインに解説しよう。連載856回で、RubinのTensorコアの性能として以下の推定値を示した。

Tensorコアの推定性能
FP4	50PFlops
FP8	25PFlops?
FP16/BF16	12.5PFlops?
FP32	6.3PFlops?
FP64	225TFlops?

　今回テクニカルブログでは以下の数字が示された。

テクニカルブログで示された性能
アーキテクチャー	Hopper	Blackwell	Rubin
FP32 Vector	67TFlops	80TFlops	130TFlops
FP32 Tensor	67TFlops	227TFlops(*)	400TFlops(*)
FP64 Vector	34TFlops	40TFlops	33TFlops
FP64 Tensor	67TFlops	150TFlops(*)	200TFlops(*)

　ここで(*)が付いているのはNVIDIAの説明が"Peak performance using Tensor Core-based emulation algorithms"なる脚注付きだからである。HopperまではTensorに関してもFP32/FP64用の専用演算器が搭載されていたのだが、Blackwell/Rubinに関しては低精度(おそらくFP16)用のユニットを複数パスをつなぐ形で処理しており、これにより精度と性能の両立を図っている、という説明であった。

　ここで言っている複数パスというのは、例えば16bitの演算器を2つ並べて32bit幅の処理をできるようにする従来型のハードウェア的実装ではなく、例えば32bit幅ならそれを上位16bit/下位16bitに分割してそれぞれ別に計算し、後で1つにまとめる的な動作をしているように見える。

　emulation algorithmsという言い方からすると、この動作はソフトウェア的に行なわれているようだ。要するにTensorコアはもう32bitのデータを直接的には扱わない構造である。ちなみに16bitが扱えるのか？　もやや怪しい。というのはテクニカルブログにもFP16/BF16の性能が一切公開されていないからだ。ある意味8bit以下に最適化されているのかもしれない。

　それともう1つ、FP4で推論が50PFlops、トレーニングが35PFlopsという数字になっていた。Blackwellではどちらも10PFlopsだったわけだが、Rubinで推論のみ性能が大きく上がっているのは、この数字がTransformer Engineを使った場合のものだからだそうだ。

　このRubinに搭載されるTransformer Engineは第3世代に刷新されており、Blackwell世代と互換性を持つが、既存のコードは自動的に第3世代向けに最適化して実行する、と説明されている。逆に言えばTensorコアそのものの性能で言えばBlackwell世代からは3.5倍の向上に留まるわけだ。

　現状まだRubin世代の詳細、つまりSM（ストリーミング・マルチプロセッサー）数や全体の構造、第3世代Transformer Engineの詳細などは明らかにされていないが、とりあえず性能的な部分に関してはある程度見えてきた格好である。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ