前へ 1 2 3 4 次へ

インテルから消えたNervanaと入れ替わったHabana Labs　AIプロセッサーの昨今

2020年08月10日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

NVIDIA V100の14%増しの学習性能を誇る
GAUDIことHL 2000

　一方のメインとなるのがGAUDIことHL 2000である。こちらも詳細は明らかになっていないが、ぱっと見GOYAによく似た構成である。

GAUDIことHL 2000。構成はSpring Crestと同じく、メインのチップに4つのHBMをシリコン・インターポーザーで接続する形態

　大きく異なるのはHBM2と、あと目立たないがRoCE対応の10×100Gイーサネットポートである。

GAUDIの概要。個々のTPCの中身が公開されていないので、なんともいいにくいのだが

　肝心の性能はHotChipsの時点では一切未公開であったが、MicroProcessor Reportに記事を寄せる形で学習性能はNVIDIA V100の14%増し、性能/消費電力比はT4の2倍、V100の2.5倍といった数字を出している。

ちなみにこれはシミュレーションを利用しての推定値

　また、チップの個数を並べた場合の実効性能が落ちにくいのも特徴であり、結果として多数のプロセッサーを利用した場合の性能はV100比で4倍近くなるとされる。

こちらもGAUDIについてはシミュレーションを利用しての推定値。チップの個数を並べた場合の実効性能が落ちにくいことを示している

多数のプロセッサーを利用した場合の性能はV100比で4倍近くなる。実はこれ、単に上の画像の実効性能にチップの数を掛け合わした結果だけでなく、ネットワーク性能も関係してくる。ちなみに縦軸は数千イメージ/秒であることに注意

　この性能については後述するとして、もう1つ大きな特徴がRoCEへの対応である。RoCEとはRDMA over Converged Ethernetの略であり、そのRDMAというのはRemote DMAの意味である。

　もともとInfiniBandという「インテルが2度も捨てた」ネットワーク規格があり(というか今もある)、現在はNVIDIA傘下にあるイスラエルのMellanox Technologiesが主要なベンダーであるが、そのInfiniBand向けにRDMAというプロトコルが規定された。

　これはネットワーク経由のデータ転送を、一切CPUを介さずにネットワークアダプターだけで済ませてしまうというもので、CPUから見るとネットワークに対して転送命令を出すだけでいつの間にかメモリーに結果が入ってる、というわけでRemote DMAと称したわけだ。

　このRDMAそのものはInfiniBand向けのものだが、これをTCP/IPの世界に持ち込んだのがRoCEである。ちなみに、他にiWARP:Internet Wide Area RDMA Protocolと呼ばれているよく似た別の規格もある。

　プロトロルの話はおいておくとして、このRoCEはやはりMellanoxからアダプターが出ているのだが、GAUDIではこれを全部オンチップに搭載してしまい、しかも100GbE×10も搭載されている。

　同じことを通常のイーサネットカードでやることは不可能である。なぜならI/Fの帯域が足りないためだ。100Gイーサネット(＝100Gbpsの双方向)をサポートするためには、PCIe Gen3×16、ないしPCIe Gen4×8のI/Fが必要である。

　これを10個ということは、チップにPCIe Gen3×160、あるいはPCIe Gen4×80のレーンが要求される。もちろんこんなI/Fは搭載できないので、スピードを落とすかイーサネットの数を減らすことになるが、そうなると特にスケーラビリティーの点で見劣りすることになる。

　またPCI Expressを挟むとそれだけでLatencyが増えることになる。Photo22でV100が、数が増えると急速に性能が劣化する理由はこのネットワークにあり、この点でGAUDIにはかなりのアドバンテージがある。

　さて、先の3枚の画像はあくまでもシミュレーションを使った推定であるが、その後実機を使ってMLPerfが非公開で実施され、ここでGAUDIはNVIDIAのT4やV100だけでなく、Spring Crestをもぶっちぎる性能だったらしい。

Back-to-Back(送り出したパケットをそのまま送り返してもらって受け取る)のレイテンシーが300nsというのは、おそろしく高速である。300nsというのは、やや遅めのメモリーにランダムアクセスする場合と大して変わらないレイテンシーだからだ

　加えて言えば、GAUDIの100G×10 RoCEはインテルにとって福音であった。インテルは2019年7月、OmniPath Fabricという独自のクラスター向けインターコネクトの開発から撤退した。

　OmniPath Fabcicは2016年に、まず100Gbpsのものが実用化され出荷もなされていたが、この後継である200Gbpsの製品の開発がうまくいかなかったらしい。

　この直前の2019年6月、インテルはBarefoot Networkというイーサネット・スイッチの会社を買収しており、今後はイーサネットベースでクラスターを構築する方向に舵を切ったわけだが、このBarefootのスイッチとGAUDIの100G RoCEは非常に相性が良い。

　Spring Crestの場合はPCIe経由で外部にイーサネット・アダプターを取り付けることになるが、構成から言って100Gイーサネット×2が精一杯であり、スケーラビリティーはずっと劣ることになる。

　この2つの理由からインテルは4億ドルを捨てて、改めてHanaba Labsの製品を同社のAI戦略の主軸に置いたわけだ。ちなみにHabana Labsの買収金額はおおよそ20億ドルである。

　Hotchipsでの発表からわずか半年で、見事に明暗が分かれた2つのチップというか、アーキテクチャーだったわけだ。

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事

PC
ロードマップでわかる！当世プロセッサー事情（目次）

ASCII倶楽部

Amazon売れ筋ランキング「ノートパソコン」（在庫あり）

【Amazon.co.jp限定】 HP ノートパソコン 15-fd 15.6インチインテル Core i7-1355U メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載カメラシャッター指紋認証薄型 Copilotキー搭載ナチュラルシルバー (C3TT0PA-AAAD)

￥175,800

Apple 2026 MacBook Air M5チップ搭載13インチノートブック：AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - ミッドナイト

￥177,333

【Amazon.co.jp限定】Lenovo Chromebook クロームブック Duet 11 10.95インチ MediaTek Kompanio 838 プロセッサー搭載メモリ8GB eMMC 128GB 重量1.0kg 83HH000TJP パソコン

￥49,800

【Amazon.co.jp限定】ASUS ノートパソコン Vivobook 14 M1405NAQ 14インチ AMD Ryzen 7 170 メモリ16GB SSD 512GB Windows 11 バッテリー駆動 12.6時間重量1.6kg Wi-Fi 6 インディーブラック M1405NAQ-R7165BL

￥89,800

Lenovo ノートパソコンパソコン IdeaPad Slim 3 14.0インチ AMD Ryzen™ 5 8640HS メモリ16GB SSD512GB MS Office搭載 Windows11 バッテリー駆動12.6時間重量1.39kg ルナグレー 83K90027JP ノートPC

￥165,800

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII.jpからのお知らせ

一覧へ

インテルから消えたNervanaと入れ替わったHabana Labs AIプロセッサーの昨今

NVIDIA V100の14%増しの学習性能を誇る GAUDIことHL 2000

この連載の記事

この記事の編集者は以下の記事をオススメしています

PC ロードマップでわかる！当世プロセッサー事情（目次）

注目ニュース

ピックアップ

インテルから消えたNervanaと入れ替わったHabana Labs　AIプロセッサーの昨今

NVIDIA V100の14%増しの学習性能を誇る
GAUDIことHL 2000

PC
ロードマップでわかる！当世プロセッサー事情（目次）