このページの本文へ

前へ 1 2 次へ

800G-ZR+RDMA最適化で「1.6TBを1分強で転送」、3000km離れたAI分散学習の実証実験も

NTTドコビジ、AI/GPUクラスタのDC分散にまた一歩 800Gbps通信で新たな実証に成功

2025年09月01日 08時00分更新

文● 福澤陽介/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

40kmの分散データセンター間で“1.6TBのデータを1分強で転送”

 現在、生成AI処理で必要な大容量・高速通信への需要が、ネットワーク装置の進化をけん引している。今回、NTTドコモビジネスがデータの高速転送検証で利用したのが、標準化が終わり、製品が出始めたばかりの800Gbps光通信技術「800G-ZR」である。

 具体的には、サーバーを分散配置した三鷹と秋葉原のデータセンターを、800G-ZRを用いた800Gbpsの大容量回線で接続した。800G-ZRは、データセンター間で長距離・大容量・高速な光通信を実現するための伝送規格だ。従来必要だった専用の伝送装置が不要で、ルーターやスイッチに挿入できるマッチ箱程度の小型モジュールに実装できるため、ネットワーク機器の省電力化や運用コストの削減につながるという。

800G-ZRとは

 さらに今回は、RDMA技術を活用して独自開発した「RDMA転送ツール」を組み合わせることで、データの高速転送を実現している。RDMAは、GPUクラスタなどの分散処理環境において、サーバー間のデータ転送を高速化・低遅延化する仕組みだ。具体的には、データ転送を行う際、送信先サーバーのCPUを介さず直接メモリにデータを書き込む。

 ただし、分散データセンター環境において長距離通信をする場合は、「転送処理の品質が低下する」課題を抱えていた。NTTドコモビジネスでは、この弱点を、同時処理で待ち時間を抑える「接続の並列化」と「1回あたりの転送データ量増加」という2つの技術を組み込んだツールを開発することで解消している。

RDMA技術

RDMA転送ツール

 今回、800G-ZRとRDMA転送ツールを用いた実証実験を行った結果、40km離れたデータセンター間で1.6TBの大容量データを1分余り(68.8秒)で転送することに成功した。これは、他の実行方式(scp・rsync・nfs・mscp)と比べて、最大約6分の1まで転送時間を短縮する結果だという。加えて、帯域性能は約8倍に、CPU利用率は最大5分の1まで省力化されている。

 「800G-ZRおよびRDMA転送ツールのそれぞれの特長が、分散データセンター環境において、GPUクラスタ環境の効率性向上、ネットワーク運用の簡素化、柔軟なリソース活用などに有用であることを確認した」(野山氏)

実証実験の結果

 同社では今後、データ高速転送の検証を、生成AI用途だけでなく、データベースやシステムのバックアップといった幅広いユースケース向けに拡張していく計画だ。

 また、GPU over APNについても、より大規模なGPUクラスタや高帯域なネットワークに適用を拡大していき、2026年度には、顧客企業が検証できるような環境を提供する予定だとしている。

■関連サイト

前へ 1 2 次へ

カテゴリートップへ

  • 角川アスキー総合研究所