近日,中兴通讯股份有限公司联合中国联通研究院和中国信息通信研究院发布了《2025年面向智算场景的高性能网络白皮书》。该报告深入探讨了智算场景下高性能网络的关键需求和挑战,分析了技术发展现状和趋势,并提出了适合行业协同发展的高性能网络技术架构和关键技术。报告内容丰富,涵盖了数据中心网络和广域网的高性能技术,为未来网络技术的发展提供了宝贵的指导和参考。
在2025年,我们迎来了智算时代的新篇章,高性能网络的需求日益迫切。《中兴通讯2025年面向智算场景的高性能网络白皮书》深入分析了智算场景下网络技术的挑战与发展趋势,为我们描绘了一个由数据中心网络和广域网构成的高性能网络蓝图。
智算场景的网络需求正推动着数据中心网络技术的革新。AI大模型的参数量从GPT-3.5的1.75亿增长到GPT-4的1.8万亿,预计GPT-5将达到十万亿参数规模,这对算力集群提出了更高的要求。AI训练任务的并行特性和超大集群互联吞吐量对网络性能提出了数量级的提升需求。网络的长稳运行变得前所未有地重要,因为它直接影响着AI大模型训练的时间,动辄数月的训练时长要求网络必须具备长期持续的稳定性。
数据中心内部的大规模密集数据交换需要高性能网络的支撑。《白皮书》指出,高性能数据中心网络(HP-DCN)面临超大规模组网的挑战,比如交换机接入容量的限制、组网拓扑的限制和异构网络的互通挑战。为了满足接入需求,减少设备数量,对单交换机容量提出了越来越高的需求。同时,大规模网络的构建可能会涉及多厂商设备,设备间互通可能面临挑战。
网络的稳定性是整个系统稳定运行的基础。《白皮书》提出,高性能网络的稳定性可采用网络可用性和性能一致性两个指标来衡量。网络设备故障感知能力不足,协议软件层面的故障感知时延在毫秒级,故障恢复效率低。此外,大规模训练或计算任务可能持续数周或数月时间,因此要求网络需具备长期持续的稳定性。
为了最大化集群算力利用率,AI大模型训练通常采用并行处理机制。《白皮书》强调,网络性能是影响集合通信效率的重要因素,主要包括超低时延、极低抖动和有效高吞吐等指标。例如,在AI大模型训练中,集合通信的网络时延和业务吞吐性能呈现正相关,决定了训练加速比的上限,因此需要网络尽可能降低时延,目标在亚微秒级。
《白皮书》还提到,高性能广域网(HP-WAN)面临新的需求和挑战。HP-WAN应用场景中的业务特征涵盖大量数据流动态突发、多并发业务协同传输、通过站点或数据中心之间的长距离连接。主要业务需求包括支持海量数据和大象流传输,总数据量为10Gbps~1Tbps;基于任务的数据传输,频率可变,例如定期可预测性数据传输;在一个或多个站点或DC之间的长距离传输,最长可能超过1000公里;即时传输,需要立即或在特定时间传输;及时传输,有完成时间但没有实时传输要求;降低平均数据传输成本;保证数据安全性和完整性。
面向未来,以太网将成为Scale Out和Scale Up网络创新的基础,光电融合是下一代智算集群网络发展的必然方向,可重构能力会成为下一代智算集群网络的基本要求。AI负载对广域网的长期影响被低估,广域网将迎来一次架构升级的周期。高性能专线与广域公网并存,高通量广域公网受业务和成本双重驱动。
这篇文章的灵感来自于《中兴通讯2025年面向智算场景的高性能网络白皮书》。除了这份报告,还有一些同类型的报告也非常有价值,推荐阅读,这些报告我们都收录在同名星球,可以自行获取。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。