AIGC的爆炸性增长对传输交换带宽以及功耗提出了前所未有的要求,智算中心作为信息处理的核心,其中光互联网络技术,尤其是全光交换技术,因其高带宽、低功耗、低时延的特性,成为海量数据互联的关键支撑技术。在近期举办的2024中国光网络研讨会(OptiNet China)上,凌云光光纤器件与仪器事业部解决方案总监张华博士与行业同仁分享了在AIGC时代智算中心光互联网络技术最新进展,以及智算中心全光交换可能的应用场景。
AIGC数据中心发展趋势和挑战
在AIGC时代,数据中心光互联面临“两高两低”的挑战:高带宽和高可靠性,以及低功耗和低时延。
高带宽和高可靠性
随着AI模型的不断增大和复杂化,对数据传输速率的需求大幅增加。传统的网络架构难以满足这种高速传输的要求,光互联网络则能够提供所需的高带宽,确保数据传输的高效性。在AI训练过程中,任何网络延迟或数据包丢失都会对训练效果产生重大影响。光互联网络需要具备高度的可靠性,以确保数据传输的稳定性和准确性。
低功耗和低时延
当前AI集群对能源的需求极其庞大,尤其是在大规模训练任务中,网络设备(如光模块和交换机)的功耗显著增加。因此,需要通过新的技术和架构来降低光互联网络的能耗。而低时延是AI集群高效运行的关键,特别是在大规模并行计算任务中,任何额外的延迟都会导致整体性能下降。
AI大模型参数规模演进
总的来说,AI集群在规模和灵活性上提出了新的要求。传统的L1层(物理层)固定连接方式已无法满足这种需求,而可重构的光互联网络可以通过引入光开关,实现AI集群的动态调整和灵活扩展。例如,谷歌的 PaLM 模型,在训练时被拆分到了两个拥有 4000 块 TPU 芯片的超级计算机上,用时50多天,任何设备故障都可能导致长时间的排查和修复,而可重构的光互联网络可以实现毫秒级的故障切换,大大提高系统的稳定性和可靠性。
OCS全光交换在AIGC数据中心应用
OCS(光路交换)技术近年来因谷歌的推动而备受关注,在数据中心中的应用逐渐增多。相较于传统的电交换,OCS在数据传输时具有低时延、低功耗和全光透明的优势,能够适应未来速率升级需求,实现多次速率升级的平滑过渡,降低运营成本。此外,OCS可在物理层实现可重构,适配不同训练任务的需求,提高网络可靠性。
例如,NV公司在其AI服务器和Leaf之间引入OCS,实现故障保护和恢复,大大缩短故障恢复时间。谷歌在其TPU v4和TPU v5网络中也采用了OCS技术,通过拓扑结构的重构提高性能和可用性。谷歌的研究表明,OCS在大规模集群中的引入,不仅能提升系统的可用性,还能优化训练任务的性能。
Nvidia L1层动态可重构大幅提升故障收敛时间:小时级->秒级
Google TPU V4 OCS互联方案
OCS关键技术及应用前景
当前OCS的商用技术方案主要有DirectLight DBS技术和MEMS技术方案,基于MEMS技术的中小矩阵OCS已在数据中心光交换网络中应用,但随着AI集群规模从千卡向万卡乃至更大规模扩展,需要更大矩阵规模的OCS方案,对OCS的良率和可靠性提出了更高要求。而DirectLight DBS技术基于光束偏转控制原理,通过动态光路调整实现光信号的交换,在大规模端口扩展中表现出优异的可靠性和稳定性,在大规模AI集群智算中心已开始应用,未来前景广阔。
DirectLight DBS —“直接光束偏转”专利技术
最后,张华博士总结到,随着HPC和数据中心规模日益增长,对功耗、时延、可靠性等要求越来越高,OCS全光交换方案可以很好适配这些需求,并且在以Google为代表的智算和数据中心已成功应用。未来,随着集群规模扩展,将需要更大端口OCS,配合OEO交换实现混合交换架构!随着数据中心OCS应用将进一步下沉(Spine->Leaf),将需要更快切换速度、小端口低成本OCS的解决方案,以进一步提升数据中心的效率和性能。