このページの本文へ

RDMA over APNを用いて、100km離れた郊外型データセンターに低遅延/高効率なデータ転送を実現

NTT、IOWN APNを活用した高効率な映像データのAI分析を実証

2024年02月20日 15時00分更新

文● 大河原克行 編集● 大塚/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 NTTは2024年2月20日、次世代通信基盤技術の「IOWN(アイオン)」を活用して大規模センサーデータ(映像データ)を郊外型データセンターでリアルタイムにAI分析する技術を開発し、その実証実験の結果を発表した。2026年の商用化を目指す。

 同技術は、映像のようなリアルタイムデータの分析処理に対して、IOWNの「オールフォトニクスネットワーク(APN)」と「IOWNデータセントリック基盤(DCI)」のデータ処理高速化手法を適用し、大規模なGPUリソースを集約した郊外型データセンターに低レイテンシでAI分析処理をオフロードするというもの。

 実証実験では、センサーデータ(カメラ映像)をおよそ100km離れたデータセンターにAPN越しのRDMA(RDMA over APN)で転送し、AIによる分析処理を行った。その結果、RDMA over APNを使わない従来の手法と比べて、カメラ映像の受信からデータセンターでのデータ分析完了までの時間を最大60%削減、カメラ1台あたりのAI分析に必要な消費電力を最大40%削減、1000台のカメラを収容する場合の消費電力を最大60%削減できたとしている。

実証実験の概要。Red Hat、NVIDIA、富士通の協力を受けて実施

NTTソフトウェアイノベーションセンタ システムソフトウェアプロジェクトグループ リーダの榑林(くればやし)亮介氏

レイテンシや通信オーバーヘッドを削減する技術を適用

 記者説明会では、NTTソフトウェアイノベーションセンタ システムソフトウェアプロジェクトグループ リーダの榑林亮介氏が、同技術や実証実験の結果について説明した。

 センサーから取得したデータのAI分析については、ワークロードをどこにデプロイ(配置)して動かすかという「場所」の課題があると、榑林氏は説明する。データの発生源(センサー)に近い場所ならばネットワークのレイテンシは低減できるが、大規模なAI処理を行うインフラの配置は困難だ。一方で、郊外型データセンターには大規模なAI処理インフラが設置できるが、レイテンシが大きくなってしまう。こうしたトレードオフの関係があった。

 今回の技術では、このネットワークにAPNを採用してネットワークのレイテンシを抑制し、さらにRDMAの適用でオーバーヘッドも削減することで、従来の課題を解消する。

 「郊外型データセンターには、土地の確保や電力需給の観点でメリットがあり、再生可能エネルギーも最大限活用できるメリットがある。APNを用いることで、AI分析のワークロードを郊外型データセンターにシフト/集約することができ、AIモデルの迅速な更新やハードウェア拡張といった要望にも柔軟に対応できる環境が整う。さらにセンサー設置拠点で取得した映像データをデータセンターにあるアクセラレータのメモリ上に、直接転送することで、従来のオーバーヘッドを削減して、レイテンシの短縮や省電力化を実現する」(榑林氏)

郊外型データセンターはAI分析に適したインフラを構築しやすい一方で、通信のレイテンシ(遅延)の課題があった。APNやRDMAの適用によりその課題を解消する

 実証実験では、NTT横須賀研究開発センタ(神奈川県横須賀市)をセンサー設置拠点に、NTT武蔵野研究開発センタ(東京都武蔵野市)を大規模GPUリソースを持つ郊外型データセンターに見立て、およそ100km離れた2つの研究開発センタ間をAPNで結び、カメラから取得した映像データをRDMA over APNを用いて転送した。

 ここでは、IOWN DCIによるデータ処理手法も活用して、高速かつ高効率な映像解析を行っている。従来手法では、CPU(OSカーネル)がTCP/IPなどの通信プロトコル処理を行ったり、CPUとGPUの間でデータ転送を行ったりする段階で処理のオーバーヘッドが大きくなり、これが大規模データの収集や分析では遅延とボトルネックの要因になっていた。さらに、データの復号や推論前/後の処理もCPUで行うケースが多く、これを電力効率の高いGPUなどのアクセラレータに置き換える仕組みにも注目が集まっている。

 今回の実証実験ではSmart NICを活用して、まずセンサー設置拠点でカメラ映像データを直接メインメモリに展開。必要な処理を行ったうえで、CPUの通信処理を介さずにRDMA over APNでデータセンターにある分析ノードにデータを転送する仕組みを実現。さらに分析ノード側では、復号/前処理/推論/後処理をGPUにオフロードして、高効率なAI分析を可能にしている。

 「RDMAを広域ネットワークで利用すると、ネットワークの遅延やパケットロスの影響を受けて性能が出ないという課題があった。このネットワークにAPNを適用することで、こうした性能低下をなくし、高効率のデータ転送を実現した」(榑林氏)

従来技術による処理のオーバーヘッドの概要

今回実証した技術。RDMA over APNで映像データをGPUメモリに直接転送し、復号/前処理/推論/後処理もCPUからオフロードして、オーバーヘッドの少ない高効率な処理を実現した

実証実験の結果(RDMA over APNを使わない手法との性能比較)

IOWN Global ForumのユースケースPoCとして実施

 今回の実証実験は、IOWN Global ForumのPoCリファレンスのひとつ「CPSエリアマネジメントユースケースPoC」として取り組まれたものだ。

 IOWN Global Forumは、2020年1月に、NTT、インテル、ソニーが設立した非営利団体で、新規技術やフレームワーク、技術仕様、リファレンスアーキテクチャの開発を通じて、IOWNによる新たなコミュニケシーョン基盤の実現を目指しており、現在、アジア、欧米などから138の組織、団体が参加している。

 「IOWN Global Forumが発行したユースケースや技術文書をもとに、メンバー企業が協力してPoCを推進しており、議論している技術が、具体的なシステムとして、商用化に向けて進展していることが示されている。技術の実施可能性、有効性を実証することで、産業界へのアピールや、ビジネス機会の創出、デファクト化への足がかりにしていくほか、さらなる技術課題の発見と議論を通じた技術の改善を図っていく」(榑林氏)

IOWN Global Forumではメンバー企業によるPoCを推進している。これまで10のPoCリファレンスが発行されており、今回の実証実験はその1つ

 CPSエリアマネジメントユースケースPoCは、スマートシティのユースケースを題材としたものであり、大規模映像推論とデータ共有におけるIOWN技術の適用が対象となっている。今回の実証実験には、Red HatやNVIDIA、富士通が協力した。とくにRed Hatでは、「Red Hat OpenShift」により、アクセラレータの活用に必要な環境設定を自動化し、複雑性の排除やワークロードの柔軟な配備を実現したという。

 榑林氏は今後の方針として、NTTの光電融合技術を組み合わせ、さらなる電力効率の向上を図り、カーボンニュートラルの実現に向けた貢献をしていくと述べた。さらに、RDMAを用いた高効率データ転送距離の長延化にも取り組むという。

 NTTでは、2006年に同技術を商用化することを目指しており、AWSをはじめとする大規模データセンターでの活用や、NTTグループのデータセンター、新たな郊外型データセンターへの適用などを図っていく。

 なお、今回の実証の成果は、スペイン・バルセロナで開催される「MWC Barcelona」のIOWN Global Forumセッションで発表されるほか、IOWN Global Forumの参加企業を対象にPoCレポートとして公開する。また、2025年に開催される大阪・関西万博のNTTパビリオンにおけるIOWNコンピューティングの一部として適用する予定も明らかにした。

カテゴリートップへ