NVIDIA、Triton Inference Server の大型アップデートを発表、世界中の 25,000 以上の企業が NVIDIA AI 推論を導入

2021.11.10 09:00

PR TIMES

NVIDIA
Capital One、Microsoft、Samsung Medison、Siemens Energy、Snap をはじめとする世界中の産業の主要な企業がプラットフォームを使用

2021 年 11 月 9 日、カリフォルニア州サンタクララ — GTC — NVIDIA は本日、Capital One、Microsoft、Samsung Medison、Siemens Energy および Snap をはじめとする、25,000 以上の企業に使用されているAI 推論プラットフォームを大幅にアップデートしたことを発表しました。

今回のアップデートには、すべての AI モデルおよびフレームワークでクロスプラットフォームの推論を可能にする、オープンソースの NVIDIA Triton Inference ServerTM ソフトウェア、ならびに AI モデルを最適化し、NVIDIA GPU での高性能な推論の実行を可能にする NVIDIA TensorRTTM の新機能が含まれています。

NVIDIA はさらに、エッジでの AI 推論のための低電力、省スペースのアクセラレータであり、CPU を使用した場合と比較して最大 20 倍に推論性能を引き上げる、NVIDIA A2 Tensor コア GPU についての発表も行いました。

NVIDIA のアクセラレーテッドコンピューティング担当ゼネラルマネージャー兼バイスプレジデントであるイアンバック (Ian Buck) は、次のように述べています。「NVIDIA の AI 推論プラットフォームは、ほとんどすべての業界でのブレイクスルーを牽引しています。よりスマートなレコメンダーを開発する場合でも、対話型 AI のパワーを活用する場合でも、あるいは科学的な発見を推進させる場合でも、NVIDIA の推論プラットフォームは、低レイテンシ、高スループット、多用途の性能を実現するとともに、世界中で新しい AI アプリケーションを普及させるために不可欠な、使いやすさも備えています」

主要なソフトウェアの最適化
Triton Inference Server のアップデートには、以下が含まれています。
Triton モデルアナライザー — この新しいツールは、数百の選択肢のなかから、AI モデルにとって最適な構成を選択できるようにすることで、主要な最適化タスクを自動化します。このツールにより、アプリケーションに求められるサービス品質を保ちながら、最適な性能を得られるようになります。

マルチ GPU マルチノード機能 — この新しい機能により、単一の GPU では扱えなくなっている、Megatron 530B のようなTransformer ベースの大規模言語モデルを、複数の GPU およびサーバーノードを横断して推論できるようになるとともに、リアルタイムの推論パフォーマンスを実現します。

RAPIDS FIL — ランダムフォレストおよび勾配ブースティング決定木モデルでの GPU または CPU による推論のための、この新しいバックエンドにより、開発者に Triton を使ったディープラーニングと従来の機械学習の両方のために統合された展開エンジンを提供します。

Amazon SageMaker との統合 — このシームレスな統合により、お客様は AWS の完全にマネージされた AI サービスである SageMaker 内で、Triton の高い性能を活用して、マルチフレームワークのモデルを簡単に展開できるようになります。

Arm CPU への対応 — NVIDIA GPU と x86 CPU だけでなく、Arm CPU でも AI 推論ワークロードを最適化するバックエンドが、Triton に含まれるようになります。

Triton は、クラウド、データセンター、エンタープライズエッジおよび組み込みの GPU および CPU で AI 推論を行うとともに、AWS、Google Cloud、Microsoft AzureおよびAlibaba Cloudとの統合が可能であり、NVIDIA AI Enterprise に実装されています。

NVIDIA AI Enterprise は、AI の開発および展開のための、エンドツーエンドのソフトウェアスイートです。NVIDIA AI Enterprise は、お客様がオンプレミスのデータセンターおよびプライベートクラウドのメインストリームサーバー上で AI ワークロードを実行できるようにするために、NVIDIA が最適化、認証およびサポートを行っています。

Triton に加えて、TensorRT が TensorFlow および PyTorch に統合され、わずか 1 行のコードを追加するだけでフレームワーク内の推論に比べて、3 倍の速度なパフォーマンスを提供します。これにより、開発者は大幅に簡素化されたワークフローで TensorRT のパワーを利用できるようになります。

SDK の最新バージョンである NVIDIA TensorRT 8.2 は、高性能なディープラーニング推論を加速し、クラウド、オンプレミスまたはエッジで高スループットと低レイテンシを実現します。今回の新たな最適化により、数十億のパラメータを備えた言語モデルを、リアルタイムで実行できるようになります。

産業界の主要な企業が、推論のために NVIDIA AI プラットフォームを導入
産業界の主要な企業が、NVIDIA AI 推論プラットフォームを活用することで、事業を改善し、お客様に AI 対応の新サービスを提供しようとしています。

Microsoft Azure Cognitive Services は、インテリジェントなアプリケーションを開発するための、クラウドベースの API から高品質な AI モデルまでを提供しています。同社は、Triton を使って、音声テキスト変換モデルを実行し、Microsoft Teams のユーザーに正確なライブキャプションとトランスクリプションを提供しています。

Microsoft の Teams Calling/ Meeting/ Devices担当プリンシパル PM マネージャーであるシャイレンドラチャブラ (Shalendra Chhabra) 氏は、次のように話しています。「Microsoft Teams は全世界でコミュニケーションおよびコラボレーションに欠かせないツールとなっており、毎月 2 億 5,000 万人のアクティブユーザーが使用しています。このような AI モデルはきわめて複雑で、数千万のニューラルネットワークのパラメータを必要とし、数十の異なった言語で正確な結果を出す必要があります。また、モデルが大きくなればなるほど、リアルタイムで費用効果の高い方法で実行するのが困難になります。Microsoft Azure Cognitive Services では、NVIDIA GPU および Triton Inference Server により、28 の言語と方言でのライブキャプションとトランスクリプション機能を、AI を使い、ほぼリアルタイムかつ費用効果の高い方法で向上できるようになっています」

Samsung Electronics の関連会社で、世界的な医療機器メーカーである Samsung Medison では、NVIDIA TensorRT を使って、同社の超音波装置の Intelligent Assist 機能で医用画像品質を向上させようとしています。Samsung Medison は、患者および医療従事者の快適さの向上、スキャン時間の短縮、ワークフローの簡素化およびシステムスループットの最終的な増加によって、これらの人々の日常生活を改善させようと努めています。

Samsung Medison のバイスプレジデント兼顧客エクスペリエンスチームヘッドである、ウォンチュルバン (Won-Chul Bang) 氏は、次のように話しています。「新しく登場する V8 ハイエンド超音波システムで NVIDIA TensorRT を活用することにより、当社では、画像の読み取りと診断を行う医療エキスパートをより良くサポートできるようになっています。当社は、AI を活用したテクノロジを超音波システムに積極的に導入することにより、医療従事者へのサポートを向上させ、彼らが患者の診断と治療という、より重要な仕事に集中できるようにしています」

エネルギー専業企業であり、最先端のエネルギーテクノロジソリューションを持つ Siemens Energy は、Triton を使って、発電所の顧客が AI によってそれぞれの施設を管理できるようにしています。

Siemens Energy の自律操作ポートフォリオマネージャーのアリクオット (Arik Ott) 氏は、次のように話しています。「カメラやセンサーを備えているものの、レガシーなソフトウェアシステムが基礎となっていることが多い、高度に複雑化した発電所も、NVIDIA Triton Inference Server の柔軟性のおかげで、自律化の産業革命の恩恵を受けられるようになっています」

Snapchat や Spectacles、Bitmoji といった製品およびサービスを提供している、カメラとソーシャルメディアのグローバル企業である Snap では、NVIDIA のテクノロジを使って、収益性を向上させ、費用を節減しています。

Snap のマッピング/収益化グループのエンジニアリング担当バイスプレジデントであるニーマカージャヒヌリー (Nima Khajehnouri) 氏は、次のように話しています。「Snap では、NVIDIA の GPU と TensorRT を使って、機械学習での推論を向上させており、これによって費用効率が 50% 改善し、サービスのレイテンシが 2 分の 1 に短縮しています。その結果、当社では、処理性能の余裕ができ、より大きく、より正確な広告とコンテンツのランキングモデルを実験および展開できるようになっています」

推論用の NVIDIA AI プラットフォームに、新しい NVIDIA-Certified Systems、新しい A2 GPU が登場
NVIDIA-Certified Systems™ により、高性能で費用効果が高く、拡張性に優れたインフラストラクチャにおいて、現代の多様な AI アプリケーション実行するためのシステムを選択、入手および導入できるようになっていますが、エッジ AI 向けの 2 つの新しいカテゴリーが追加されました。

このようなカテゴリーの拡大により、NVIDIA のシステムパートナーは、NVIDIA Ampere アーキテクチャベースの GPU が搭載されたNVIDIA-Certified Systems の全ラインアップを通じて、事実上あらゆるワークロードに対処できるようになっています。この新しいラインアップには、エッジサーバーでの推論およびエッジ AI に適しており、エントリーレベルかつ低電力消費の、コンパクトなアクセラレータである、新しい NVIDIA A2 GPU が含まれています。主要なエンタープライズサーバーのための NVIDIA A30、および最高の性能を誇る AI サーバーであるNVIDIA A100に加え、NVIDIA A2 が追加されることで、エッジ、データセンターおよびクラウドのいずれにおいても、包括的な AI 推論の加速が可能になります。

Atos や Dell Technologies、GIGABYTE、Hewlett Packard Enterprise、Inspur、Lenovo、Supermicro といった、世界的なエンタープライズシステムプロバイダーも、自社の AI システムポートフォリオの NVIDIA-Certified Systemsで、NVIDIA AI Enterpriseに対応しています。

Advantech や ASRock Rack、ASUS、H3C、Nettrix、QCT といったシステムプロバイダーも、さまざまなワークロードを対象とした NVIDIA-Certified Systems を販売しています。新しいエッジカテゴリーにおいて認証された最初の NVIDIA-Certified Systems は、Advantech や GIGABYTE、Lenovo などの主要プロバイダーよりまもなく発売される予定です。

発売予定
Triton は、フレームワーク、ツールキット、トレーニング済みモデルおよび Jupyter Notebook を含む、GPU 最適化済み AI ソフトウェアのハブである NVIDIA NGCTM カタログより入手可能で、オープンソースコードはTriton GitHub リポジトリより入手いただけます。

TensorRT は、NVIDIA Developer Programのメンバーであれば、TensorRT ページより入手いただけます。プラグイン、パーサーおよびサンプルの最新バージョンは、TensorRT GitHub リポジトリよりオープンソースとしてもご利用いただけます。お客様は、本日別途発表された NVIDIA LaunchPad プログラムで利用可能な、世界中のキュレーテッドラボを通じて、NVIDIA AI Enterprise ソフトウェアスイートに含まれた NVIDIA Triton を体験することができます。

NVIDIA AI Enterprise ソフトウェアスイートは、Atea や Axians、Carahsoft Technology Corp、Computacenter、Insight Enterprises、Presidio, Sirius、SoftServe、SVA System Vertrieb Alexander GmbH、TD SYNNEX、Trace3、WWTといった、全世界の NVIDIA チャネルパートナーからも入手いただけます。