NVIDIA NeMoやMegatronを利用、「GPU over APN」実現にまた一歩近づく
「遠隔分散GPU」の時代が間もなく NTT Comはいかに“3拠点”でのAI分散学習に成功したか
2025年03月25日 07時00分更新
3拠点でのtsuzumiの分散学習は「単一DCとほぼ互角」
まず、2拠点の接続における実証実験では、秋葉原の単一データセンター内で、独自LLM「tsuzumi 7B」の事前学習を、NVIDIA H100を2基搭載したGPUサーバー2ノードで実施した場合の所有時間を1と設定。秋葉原と三鷹の2拠点をIOWN APNで結んだ場合は「約1.005倍」と、「ほぼ互角」の結果になったという。インターネットによって2拠点を接続すると、4.657倍かかると試算している。
また、川崎の単一データセンター内で、H100を2基搭載したGPUサーバーを3ノードで実施した場合を1として、川崎、秋葉原、三鷹の3拠点をIOWN APNで接続した場合は「1.105倍」となり、同じく「ほぼ互角」と評価した。これをインターネット経由で実施すると、9.187倍かかると試算している。
鈴ヶ嶺氏は、「IOWN APNの低遅延通信が効果を発揮している。GPU over APNで目指している分散データセンターの実用性や有用性が確認できた。GPUクラスタを複数のデータセンターに分散配置することで、電源や土地スペースなどの単一データセンターが持つ制約や課題を克服し、柔軟で効率的なリソースの活用が可能になる」と成果を説明。
そして、「NVIDIA NeMoやMegatronを活用することで、大規模マルチノード学習におけるスケーラビリティを確認できた。独自アーキテクチャーのLLMの実装と継続事前学習もクイックに行える」と付け加えた。
今後NTT Comは、今回の実証実験の結果をもとに、日本全国の分散データセンターの配置を見越した拠点数の増加と距離延伸を実証していくほか、IOWN APNで接続した分散データセンターにおける通信方法やGPUリソースの最適化を検証していくという。
また、IOWN APNで接続した分散データセンターにおけるGPUクラスタの可能性をさらに広げていく意向で、国内70拠点以上のデータセンター間や、顧客機が持つビルなどと接続可能な「APN専用線プラン powered by IOWN」、前述の「Green Nexcenter」などを組み合せたGPUクラウドソリューションの提供を目指すとする。
最適なGPUリソース配置による「コスト削減」や「持続的な運用」に期待
複数のデータセンターをIOWN APNで接続することで、余ったGPUサーバーを再利用するなど、最適なGPUリソースの配置がより実用的になる。さらに、各地域のデータセンターを活用することで、その土地の電力供給量や値段に応じた、ユーザーの要望に合わせた運用パターンを選択できるようになり、コスト削減にも直結するだろう。
今後、近距離の拠点同士での低遅延なワークロードや、遠距離の拠点同士での電力効率を意識したワークロードなど、ユーザーの特性に応じた分散学習や、推論などのスケジューリングの可能性が高まり、持続可能な運用の実現が期待される。










