前へ 1 2 3 4 次へ

インテルから消えたNervanaと入れ替わったHabana Labs　AIプロセッサーの昨今

2020年08月10日 12時00分更新

文● 大原雄介（http://www.yusuke-ohara.com/）　編集●北村／ASCII

NVIDIA V100の14%増しの学習性能を誇る
GAUDIことHL 2000

　一方のメインとなるのがGAUDIことHL 2000である。こちらも詳細は明らかになっていないが、ぱっと見GOYAによく似た構成である。

GAUDIことHL 2000。構成はSpring Crestと同じく、メインのチップに4つのHBMをシリコン・インターポーザーで接続する形態

　大きく異なるのはHBM2と、あと目立たないがRoCE対応の10×100Gイーサネットポートである。

GAUDIの概要。個々のTPCの中身が公開されていないので、なんともいいにくいのだが

　肝心の性能はHotChipsの時点では一切未公開であったが、MicroProcessor Reportに記事を寄せる形で学習性能はNVIDIA V100の14%増し、性能/消費電力比はT4の2倍、V100の2.5倍といった数字を出している。

ちなみにこれはシミュレーションを利用しての推定値

　また、チップの個数を並べた場合の実効性能が落ちにくいのも特徴であり、結果として多数のプロセッサーを利用した場合の性能はV100比で4倍近くなるとされる。

こちらもGAUDIについてはシミュレーションを利用しての推定値。チップの個数を並べた場合の実効性能が落ちにくいことを示している

多数のプロセッサーを利用した場合の性能はV100比で4倍近くなる。実はこれ、単に上の画像の実効性能にチップの数を掛け合わした結果だけでなく、ネットワーク性能も関係してくる。ちなみに縦軸は数千イメージ/秒であることに注意

　この性能については後述するとして、もう1つ大きな特徴がRoCEへの対応である。RoCEとはRDMA over Converged Ethernetの略であり、そのRDMAというのはRemote DMAの意味である。

　もともとInfiniBandという「インテルが2度も捨てた」ネットワーク規格があり(というか今もある)、現在はNVIDIA傘下にあるイスラエルのMellanox Technologiesが主要なベンダーであるが、そのInfiniBand向けにRDMAというプロトコルが規定された。

　これはネットワーク経由のデータ転送を、一切CPUを介さずにネットワークアダプターだけで済ませてしまうというもので、CPUから見るとネットワークに対して転送命令を出すだけでいつの間にかメモリーに結果が入ってる、というわけでRemote DMAと称したわけだ。

　このRDMAそのものはInfiniBand向けのものだが、これをTCP/IPの世界に持ち込んだのがRoCEである。ちなみに、他にiWARP:Internet Wide Area RDMA Protocolと呼ばれているよく似た別の規格もある。

　プロトロルの話はおいておくとして、このRoCEはやはりMellanoxからアダプターが出ているのだが、GAUDIではこれを全部オンチップに搭載してしまい、しかも100GbE×10も搭載されている。

　同じことを通常のイーサネットカードでやることは不可能である。なぜならI/Fの帯域が足りないためだ。100Gイーサネット(＝100Gbpsの双方向)をサポートするためには、PCIe Gen3×16、ないしPCIe Gen4×8のI/Fが必要である。

　これを10個ということは、チップにPCIe Gen3×160、あるいはPCIe Gen4×80のレーンが要求される。もちろんこんなI/Fは搭載できないので、スピードを落とすかイーサネットの数を減らすことになるが、そうなると特にスケーラビリティーの点で見劣りすることになる。

　またPCI Expressを挟むとそれだけでLatencyが増えることになる。Photo22でV100が、数が増えると急速に性能が劣化する理由はこのネットワークにあり、この点でGAUDIにはかなりのアドバンテージがある。

　さて、先の3枚の画像はあくまでもシミュレーションを使った推定であるが、その後実機を使ってMLPerfが非公開で実施され、ここでGAUDIはNVIDIAのT4やV100だけでなく、Spring Crestをもぶっちぎる性能だったらしい。

Back-to-Back(送り出したパケットをそのまま送り返してもらって受け取る)のレイテンシーが300nsというのは、おそろしく高速である。300nsというのは、やや遅めのメモリーにランダムアクセスする場合と大して変わらないレイテンシーだからだ

　加えて言えば、GAUDIの100G×10 RoCEはインテルにとって福音であった。インテルは2019年7月、OmniPath Fabricという独自のクラスター向けインターコネクトの開発から撤退した。

　OmniPath Fabcicは2016年に、まず100Gbpsのものが実用化され出荷もなされていたが、この後継である200Gbpsの製品の開発がうまくいかなかったらしい。

　この直前の2019年6月、インテルはBarefoot Networkというイーサネット・スイッチの会社を買収しており、今後はイーサネットベースでクラスターを構築する方向に舵を切ったわけだが、このBarefootのスイッチとGAUDIの100G RoCEは非常に相性が良い。

　Spring Crestの場合はPCIe経由で外部にイーサネット・アダプターを取り付けることになるが、構成から言って100Gイーサネット×2が精一杯であり、スケーラビリティーはずっと劣ることになる。

　この2つの理由からインテルは4億ドルを捨てて、改めてHanaba Labsの製品を同社のAI戦略の主軸に置いたわけだ。ちなみにHabana Labsの買収金額はおおよそ20億ドルである。

　Hotchipsでの発表からわずか半年で、見事に明暗が分かれた2つのチップというか、アーキテクチャーだったわけだ。

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事

PC
ロードマップでわかる！当世プロセッサー事情（目次）

ASCII倶楽部

Amazon売れ筋ランキング「ノートパソコン」（在庫あり）

【整備済み品】富士通 ARROWS Tab V727/V 12.3型タブレットPC 第7世代 Core m3 メモリ4GB SSD128GB Windows11 Office2019搭載 1920×1280 高精細液晶 LTE対応無線LAN タッチペン付属カメラ搭載初期設定済み

￥9,999

【整備済み品】富士通ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄ノートPC/第10世代 Core i5-10310U＠1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載ビジネス在宅勤務向けパソコン (メモリ：8GB／SSD：256GB)

￥35,129

Apple 2026 MacBook Air M5チップ搭載13インチノートブック：AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - シルバー

￥177,333

【整備済み品】ノートパソコン N E C Versapro-VKシリーズ core i3 第8世代/ノートPC/Ｗebカメラ内蔵/Windows11/MS & Office2019/メモリ4GB/SSD128GB/DVD/15.6インチ/HDMI/Bluetooth/wifi/マウス付属/初期設定不要/初心者向け(i3-8/SSD 128GB)

￥14,850

【整備済み品】NEC ノートパソコン VKM16/VKT16 15.6型第8世代Core i5-8265U(最大動作3.9GHz) /Windows11 Pro/MS Office2019/WIFI内蔵/Webカメラ/DVD-ROM/Bluetooth/HDMI/Type-C(テンキー非搭載/Corei5-8265U, メモリ16GB,SSD512GB)

￥34,800

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII.jpからのお知らせ

一覧へ

インテルから消えたNervanaと入れ替わったHabana Labs AIプロセッサーの昨今

NVIDIA V100の14%増しの学習性能を誇る GAUDIことHL 2000

この連載の記事

この記事の編集者は以下の記事をオススメしています

PC ロードマップでわかる！当世プロセッサー事情（目次）

注目ニュース

ピックアップ

インテルから消えたNervanaと入れ替わったHabana Labs　AIプロセッサーの昨今

NVIDIA V100の14%増しの学習性能を誇る
GAUDIことHL 2000

PC
ロードマップでわかる！当世プロセッサー事情（目次）