英伟达推出Spectrum-XGS以太网技术,提升跨区域数据中心AI效率

AI快讯20小时前发布 ai-tab
5 0

单点数据中心为何走不通?

单个数据中心堆满GPU却遭遇供电瓶颈?散热系统超负荷运转仍无法满足千卡集群需求?这已成为制约AI工厂规模化的致命痛点。传统纵向扩展(Scale-up)受限于单机柜功率天花板——水冷散热和电力输入存在物理阈值,无法无限提升计算密度;横向扩展(Scale-out)虽能增加服务器数量,但土地空间和建筑容量划定了硬性边界。
更棘手的是,跨地域集群协同因网络延迟彻底失效。当数据包在数百公里传输中堆积丢失,GPU集体等待滞后节点,整个训练任务效率暴跌。现有以太网的抖动(Jitter)问题像多米诺骨牌,瞬间拖垮分布式计算效率。

Spectrum-XGS以太网技术

Spectrum-XGS的核心突破

英伟达的解法不是重建光缆,而是用算法重构网络逻辑。Spectrum-XGS的三大技术支柱直击跨域协同痛点:

  1. 距离自适应拥塞控制
    动态调整拥塞阈值匹配物理距离。传统以太网对10米与100公里链路采用相同策略,导致长距传输数据包堆积。XGS算法实时分析路径长度、流量模式,自动优化缓冲区策略,避免跨洲际传输的雪崩式丢包。
  2. 逐包精细路由管理
    消除重传引发的延迟抖动。通过端到端遥测系统采集GPU到交换机的全链路毫秒级数据,动态分配数据包路径。实测显示,跨数据中心GPU间延迟稳定控制在200毫秒内,满足实时推理的交互需求。
  3. 无损网络硬件协同
    依托Spectrum-4交换机与ConnectX-8 SuperNIC构建800Gb/s底层通道。共封装光学(CPO)技术将硅光子引擎集成至交换机封装,降低光模块功耗40%,支撑千公里级传输能效。

从实验室到产业部署

在NCCL(集体通信库)基准测试中,Spectrum-XGS将跨域通信性能提升1.9倍。这意味着纽约与伦敦的GPU集群可协同完成单日千亿参数模型训练,而过去需要停机等待数据同步。
云服务商CoreWeave率先部署该技术,其CTO Peter Salanki证实:“通过XGS将分散数据中心整合为统一超级计算机,客户能调用giga级AI算力推进药物研发和气候模拟。” 这一架构正支撑OpenAI的Stargate计划等超大规模项目。


谁在抢滩跨域算力红利?

Spectrum-XGS的落地引爆四大领域技术升级:

  • 光通信:1.6T光模块与CPO成刚需
    中际旭创联合英伟达开发的硅光1.6T模块支持100Gbps/通道传输,单台GB200机柜光模块价值量达12万美元;新易盛800G LPO模块功耗降40%,适配长距低延迟需求。
  • 网络设备:国产交换机突破25.6T瓶颈
    紫光股份800G智算交换机支持10万卡集群组网,端到端延迟压至5微秒;盛科通信25.6T芯片兼容RoCEv2协议,微软Azure已部署其跨域调度方案。
  • 液冷散热:100kW机柜的降温革命
    英维克冷板液冷方案使GB200机柜PUE降至1.08;高澜股份浸没式液冷将GPU结温控在75℃以下,满足十亿瓦级工厂散热需求。
  • 推理加速:软件层突破4倍吞吐量
    配合Spectrum-XGS,英伟达Dynamo框架将GPT模型推理Token生成速度提升4倍;推测解码(Speculative Decoding)技术用小型草稿模型预测输出,减少35%主模型计算量。

为什么这是AI工业化的分水岭?

当电力与土地成为算力扩张的硬约束,跨域扩展(Scale-across)从可选方案变为必选项。黄仁勋称之为“AI计算的第三大支柱”——它与NVLink协同形成三级扩展架构:单机架内NVLink提供微秒级延迟,单数据中心内Spectrum-X优化集群通信,跨地域则依赖XGS打破物理边界。
以太网取代InfiniBand的趋势进一步放大其价值。Dell’Oro预测2030年以太网交换机ASIC市场年复合增长率达32%,而英伟达网络业务单季营收已突破50亿美元,印证技术迁移加速度。
未来三年,百万GPU集群、十亿瓦级功耗的AI工厂将依托此类技术涌现。当旧金山训练的模型实时调用东京推理算力,地理隔阂彻底消失时,我们或许正站在全局智能调度时代的起点。

© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

none
暂无评论...