4096 OAMがGaudi 3の最大構成に近い
話を戻すと、イーサネットを利用して大規模システムを構築する場合の構成例も示された。
おそらくはこの直上の画像にある512ノードが現実的には上限に近く、これ以上になるとスパインの上にもう1つコアスイッチを入れないと収まらないようにも思える。さすがにそうなるとレイテンシーが無視できないところであって、4096 OAMがGaudi 3の最大構成に近いと考えて良さそうだ。
メモリー容量が最大のネック
さて、ここからは性能の話。Gaudi 3はNVIDIAのH100/H200をターゲットとしており、性能もH100/H200との比較という格好になる。まずH100とのトレーニングの性能比較では、1.4~1.7倍高速となっている。平均1.5倍といったところか。
これが推論におけるH200との比較になると、だいぶ旗色が悪くなる。H100はHBMが80GBだったので、トータルで128GBを実装するGaudi 3にアドバンテージがあるが、141GBを搭載するH200には、メモリー量で押し負けるといったあたりだろうか?
実際H100との推論での比較では、だいぶいい勝負になっているあたりは、やはりメモリー容量が最大のネックということだろう。
もう1つGaudi 3の特徴としては電力効率の良さをアピールしたいようだが、結果を見ると「確かに高効率なものもあるが、そうでないケースも多い」という感じで、もうなにをどう実行するかで変わってくる感じで、そのあたりの見極めが大変そうである。
Gaudi 3の後継はFalcon Shores
最後に今後のロードマップについて。Gaudi 3の後継としてGaudi 4的なものは特に考慮されていないようで、次はFalcon Shoresになることが改めて明らかにされた。
Falcon Shoresは連載710回で説明したが、Ponte Vecchioの後継となるAPUである。要するにx86コアとXeベースのGPUから構成され、しかもユニファイド・メモリーが実装される構成である。
XeコアベースのGPUと発表されていることから、GaudiのTPCやMMEが実装されるかどうかはかなり怪しい(普通に考えると実装されない)ことになる。もともとHabana Labsの製品はインテルのoneAPIとソフトウェアの互換性がなく、独自のSynapseAI SDKを利用してアプリケーションを構築することになっており、これはGaudi 3でも同じである。
インテルとしてはGaudiをoneAPIに統合するより、Gaudiのアーキテクチャーを廃してXeベースでAIを処理する方向に舵を切った、と考えるのだが妥当だろう。要するにGaudiは、あくまでXeベースのAIトレーニング向け製品が出るまでのピンチヒッターという役割だったことが、今回の発表で図らずしも明らかになった格好である。
この連載の記事
-
第775回
PC
安定した転送速度を確保できたSCSI 消え去ったI/F史 -
第774回
PC
日本の半導体メーカーが開発協力に名乗りを上げた次世代Esperanto ET-SoC AIプロセッサーの昨今 -
第773回
PC
Sound Blasterが普及に大きく貢献したGame Port 消え去ったI/F史 -
第772回
PC
スーパーコンピューターの系譜 本格稼働で大きく性能を伸ばしたAuroraだが世界一には届かなかった -
第771回
PC
277もの特許を使用して標準化した高速シリアルバスIEEE 1394 消え去ったI/F史 -
第770回
PC
キーボードとマウスをつなぐDINおよびPS/2コネクター 消え去ったI/F史 -
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ - この連載の一覧へ