NTT Com、IOWN APNによる3拠点分散DCでの生成AI学習に世界初成功

2025年3月19日、NTTコミュニケーションズ(以下、NTT)が、独自技術であるオールフォトニクス・ネットワーク(APN)を活用し、3拠点に分散配置したGPUサーバーで生成AI学習に世界で初めて成功したとの発表があった。
川崎、三鷹、秋葉原の3データセンターを光技術で結び、それぞれ離れた拠点であるにもかかわらず、単一拠点と遜色ない性能を実現したという。
高速光ネットワークが実現する分散学習の高効率化
NTTが実施した今回の実証実験では、約25〜50km離れた川崎、三鷹、秋葉原の3拠点に分散配置されたGPUサーバーを、100Gbps回線のIOWN APNで接続している。
この環境下でNVIDIAのプラットフォーム「NeMo」を使用し、NTT版大規模言語モデル「tsuzumi」の7Bモデルの分散学習を行った結果、複数データセンター間での生成AI学習に成功した。
実験結果によると、IOWN APN経由での分散データセンターでの学習所要時間は、単一データセンターの場合と比較して約1.105倍に抑えられたという。従来のインターネット経由での所要時間は9.187倍にも及んでおり、高い効率性を示すものであると言える。
スムーズに連携できる分散型のデータセンターネットワークが構築されることで、GPUリソースの効率的な活用が可能になる。データセンターのキャパシティや電力供給の制限に柔軟に対応できるだけでなく、処理量の変動に応じたGPUリソースの確保も実現できるようになるだろう。
NTTは、IOWN構想というネットワーク構想を掲げている。
IOWNはInnovative Optical and Wireless Network(革新的な光・ワイヤレスネットワーク)の略で、光関連技術および情報処理技術を活用したネットワーク・情報処理基盤を目指すものだ。
特にAPN(All-Photonics Network、全光学ネットワーク)は、通信ネットワーク全区間で光波長を占有することにより、大容量・高品質、低遅延、低消費電力を実現する革新的な技術として注目されている。
今後の取り組みと展望
今回の実証実験の成功を受け、NTTでは分散データセンターの拠点数増加と通信方法・GPUリソースの最適化に向けた取り組みを進めている。
具体的には「APN専用線プラン powered by IOWN」と「Green Nexcenter」を組み合わせたGPUクラウドソリューションの提供を計画しているとのことだ。これが実現すれば、生成AIの学習効率向上だけでなく、持続可能な運用も可能になると考えられる。
生成AIの開発競争が世界的に激化する中、学習インフラの効率化は重要な課題となっている。NTTが実現した分散型データセンター技術は、限られたGPUリソースを最大限に活用するための新たな選択肢を提供するものであり、GPUクラスターの利用者や提供事業者にとって大きな意義を持つだろう。
今後は、さらなる拠点間の距離拡大や、より大規模なモデル学習への適用など、技術の発展が期待される。