近年来,数据中心网络技术一直在不断发展,以满足日益增长的数据处理需求。从最初的传统结构,到软件定义网络(SDN),再到云原生网络(CN-NFV),数据中心网络技术已经走过了一个漫长的发展历程。
AI时代,高性能计算需求正呈现爆发性增长态势,数据中心网络面临更为复杂的挑战,技术将会有哪些新的变化?是否有合适的解决之道?
华为数据通信产品线数据中心网络领域副总裁 张白
2023年8月23日-25日,全国高性能计算学术年会(CCF HPC China 2023)在青岛举办,CCF HPC China是高性能计算领域全球最具影响力的三大超算盛会之一,有着“中国超算风向标”的称号。本次大会上,华为数据通信产品线数据中心网络领域副总裁张白分享随着AI时代的到来,高性能计算对网络新的诉求,以及如何依靠星河AI网络解决方案去解决智能时代网络面临的新的挑战。
高性能计算需要什么样的互联网络?
当前,新一轮科技革命和产业变革加速演进,高性能计算正带领人类从“信息时代”走向“算力时代”。据中国电子信息产业发展研究院发布的《2022中国数字经济发展研究报告》显示,目前中国算力规模约占全球的27%,排名第二。我国算力进入高速发展阶段,到2025年总算力规模将达到300EFlops,同比2020年增长120%。
数据的爆炸性增长需要算力去解决,一方面需要更高效的算力结构,另一方面需要好的算力网络。高性能计算主要关注如何利用大规模计算的资源来解决科学、工程和商业问题。HPC应用程序通常需要使用并行计算,E级/10E级的超算,它的并行计算带给网络非常大的挑战。比如,并行通信、数据同步、大规模稳定运行等。同时,随着AI人工智能快速发展,HPC和AI结合的研究,HPC和AI应用程序通常需要处理大量的数据,并且在计算节点之间进行数据传输和存储,对网络的吞吐及负载均衡也提出了新的挑战。
以当前火爆的大模型来说,其对数据中心网络要求更为苛刻,可以说,大规模算力环境下的网络问题已成为当今数据中心所面临的“紧箍咒”之一。
官网显示,ChatGPT-4输入参数已经达到万亿,2.5年增长了570倍,1.5万张A100卡来支撑训练,大量服务器通过高速网络组成算力集群,共同完成训练任务。但是大规模不等于大带宽,AI大模型的训练场景中会存在负载不均衡的情况,而且设备网络规模越大,传统负载方式冲突会越严重。类似于要想提高车辆运行速度,在拓宽道路的基础上,还需要解决堵车的难题。大规模的网络不仅让业务调优复杂,后期运维也是雪上加霜,无法采用传统手段运维,据统计50%的迭代过程会被迫中断,定位时长平均1天以上。由此可见,AI训练对于网络的诉求可以用三个词来归纳:大规模,高吞吐,高可靠。
如何释放高性能计算100%算力?
加大高性能计算供给,必须增加算力网络可靠性。自2020年至今,大模型引领AI进入新的发展阶段,但大模型训练是个复杂的系统工程,网络基础设施正是长稳训练的关键之一。对于用户来说,其需要投入大量的资金和人才战略来施行其智能化战略,要怎样才能进行数据中心的创新,建立其符合未来需求的数据中心网络呢?
针对当前业界火爆的AI大模型,华为在2023CCF全国高性能计算学术年会(CCF HPC China 2023)上带来星河AI网络解决方案,提供“运得多、运得快,运得稳”的高运力数据中心网络,为客户提供大规模、高吞吐、高可靠的网络建设。
AI场景下对网络的第一要求是大规模,适配万卡集群是网络最基本的要求。华为采用业界最高密200/400GE交换机,匹配大模型训练基本硬件算力诉求,支持超大带宽组网,支持万亿参数量,规模可以达到IB的2-4倍。
网络的另一个要求是高吞吐,面对大规模网络采用算网一体化的方式部署,效率可以提升10倍以上。在AI场景中网络时延不是关键指标,而网络吞吐才是业务性能的关键因素,华为独创AI智能加速器,提高网络吞吐,训练效率提升20%。
高可靠同样是客户对网络的重要要求,华为采用智能化运维的方式来保证训练实时可视分钟级识别慢主机,保证训练的过程不中断。通过采用网络的控制器,包括网络以及计算强强联手,实现“算网一体的融合”,最终实现算力网络“运得多,运得快,运得稳”的目标,从而实现算力100%释放。
进入AI时代,数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变,计算、存储、网络等这些IT基础设施的核心组成部分,正在融入更多的AI元素。企业如果想要打造未来型数据中心,就必须寻找优秀的技术合作伙伴,致力于提供一套更好的网络基础设施。华为星河AI网络解决方案通过构建支持AI业务的网络,实现从大型模型训练到推理的全过程。目前,华为星河AI网络解决方案已在成全球100+企业部署商用。
如何打造面向未来的AI 网络?
到2030年,全球联接数预计将达到2000亿,数据中心流量10年增长100倍,IPv6地址渗透率将达到90%,AI算力将增长500倍。当前及未来的数据中心将如何应对这些趋势和发展要求?这就需要构建一个立体超宽、满足确定性时延的智能原生AI网络。在华为看来,AI网络的所有技术手段,都需要以业务为本,核心指标就是减少模型的训练时间。
首先,大模型需要规模算力,需要非常大的GPU集群。而把大规模的GPU集群连起来,需要大规模的网络。对于数据中心网络而言,大规模网络本身不是问题,更重要的是要考量建网的成本。华为主张采用大容量的交换设备组网降低网络的层次,由原来的三层合适组网变成两层宽河组网,从而来降低组网的成本。
其次,大规模的集群只是把AI物理服务器物理上连接在一起,要发挥效果还需要释放集群算力。网络在提高集群的加速比上需要发挥更加关键的作用。
最后,AI训练的本质是并行计算,有典型的木桶效应,水桶的盛水量是由几块木板中最短的一块决定的。一个环节出问题,会拉慢整个系统甚至让整个系统瘫痪。网络需要尽可能多的保障服务器之间的连通性,对网络的高可靠需求更高。未来网络要提高集群的整体可用性,做到在99%的情况下都不会因为网络导致训练中断。
在过去20年,网络技术获得了长足发展——2000年开始的ALL IP技术推动了互联网的大规模应用,2010年开始的All Cloud技术驱动了企业IT基础设施的大规模云化。而今天,AI浪潮正扑面而来,持续演进的AI对网络的需求将会处于指数级增长的态势,网络也需要全面拥抱人工智能时代。在这个过程中,华为将继续携手伙伴开放合作与持续创新,在算力领域的发展和应用中作出更大的贡献。