M35DはAlveoシリーズ初の
FPGAを搭載しない製品
前提の説明が終わったので今回の説明に移りたい。今回発表されたAlveo M35Dは、Alveoの名前は冠しているもののFPGAは搭載されておらず、その代わりエンコード/デコードに特化した専用のASICチップを2つ搭載している。
物理的には1チップにすることも可能なのだろうが、ダイサイズが大きくなる分歩留まりが下がるからコスト増になるし、そもそも処理の並列度が高いから複数チップでも問題ない、ということだろう。ただ基板上にPCIe ブリッジがないので、Alveo U30と同じくx8レーンを2×4レーン構成として、それぞれのチップにつなげていると思われる
なぜFPGAではなく専用のASICを起こしたか? というと理由は以下の2つがある。
(1) エンコード/デコードに限るとFPGAのメリットが薄れてきた。FPGAのメリットは、例えば新しいアルゴリズムやフォーマット、プロトコルが出てきた場合に、すぐにロジックを書き換えて対応できることが最大のものなのだが、動画のフォーマットはもう決まっており、そのエンコード/デコード手法もほぼ確立している。
2020年に最初にビデオアプライアンス向けに発表されたとき、H.264はともかくH.265はまだ使われ始めた(*)ばかりで、エンコーダー/デコーダーも十分に熟していたとは言い難かったが、もう現状ではエンコード/デコード方法は十分確立しており、処理を後から変更する可能性は非常に少ない。
AV1についても、以前からFPGA用にAV1のエンコーダー/デコーダーIPを提供、さらにそのIPを使ってまずRadeon RX 6000シリーズでデコードを、RX 7000シリーズではエンコードとデコードをハードウェアで行なえるようにしており、こちらも今後大幅に中身が変わる可能性は少ない。となると、FPGAを使うメリットがほとんどない。
(2) その一方でFPGAとASICを比較すると、ロジック密度は一桁違う(ASICで実装していた処理をFPGAに持っていくと、実装には10倍くらいのトランジスタが必要になる)。これは当然実装密度に跳ね返ってくる。つまり無駄にダイが大型化するわけで、消費電力と発熱が増え、おまけにコストまで上がる。また消費電力が上がるということは高速化しにくいということでもある。
以上のように、中のロジックを書き換える可能性が非常に低い用途であれば、FPGAのままではなくASICに切り替えた方がずっと効率的である。実際にはもう1つファクターがあって、それはASICを作る場合のNRE(初期コスト)が異様に高いので、ある程度数が出ない場合にはASICのコストを回収できないというものだ。
ただAMDくらいの販売規模であれば、これはそもそも問題にならない。設計のためのコンポーネントはFPGA用にすでにIPのかたちで保有しているから、それをそのまま使えることになる。実際には細かな改良を施した、という話ではあったが。
またASICを作る場合にはEDAツール(論理/物理設計を行なうための開発ツール)を使う必要があり、これがまた高かったりするのだが、AMDはすでにCPUやGPUのためにこれらのツールを当然大量に導入しているわけで、そうするとNREはそれほど大きいとは言えない。5nmプロセスに関してもすでにZen 4コアやRDNA 3コアで実績を積んでいる。こうなるとASICにしない方がむしろ不思議なくらいだ。
そんなわけで、これまでFPGAで実装していたエンコーダー/デコーダーを完全にASIC化することで、処理性能を大幅に向上させたのがAlveo M35Dということになる。おもしろいのは、特にAV1の処理のためにAIプロセッサーも搭載していることで、全部が全部ロジックで固まっているわけではない。
後述するがトータル8コアのCPUも搭載されている。Alveo U30との比較は下の画像のとおりなのだが、この手のスライドとして誤解を招きやすい。
Alveo U30との比較。ラフに言えばH.264だとチップ1個あたりAlveo U30の2倍のエンコード性能であり、カード同士で言えば4倍の性能になる。またAlveo U30はAV1のエンコード/デコード機能は搭載されていない
チャネル密度とコストに関しては文字通りであるが、圧縮率はH.264とAV1の比較である。Alveo U30はAV1のエンコードができないから、これが可能なAlveo M35Dは最大1.8倍の圧縮が可能という話で、H.264同士で比較したらもちろん圧縮率そのものは大きくは変わらない(これは後述)。
またレイテンシーも、Alveo U30がH.264/4Kだと最大30fpsのエンコードが可能で、一方Alveo M35DはAV1/4Kで120fpsのエンコードが可能なので、1フレーム当たりの時間で言えば33.3ms vs 8.3msでレイテンシーを4分の1に減らせるという意味で、間違ってはいないが同じH.264同士とフレームレートだと当然同じレイテンシーになる。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ


