【IT168评论】近日,以“云网智联,助力数智创新”为主题的2021中国云网智联大会在北京召开。北京邮电大学电子工程学院执行院长张杰在“云光一体”分论坛上,发表了《云网融合资源编排和服务提供研究》的主题演讲。
▲北京邮电大学电子工程学院执行院长 张杰
(一)云网融合的发展需求
新冠疫情的突发,线上经济得以快速发展,并推进我国信息化的建设。2020年5月22日,“新基建”首度写入政府工作报告。2021年3月5日,政府工作报告中,明确提出“加大5G网络和千兆光网的建设力度”。
3月25日,工信部印发的《“双千兆”网络协同发展行动计划(2021-2023年)》的主要目标是,用三年时间,基本建成全面覆盖城镇的“双千兆”网络基础设施,实现固定和移动网络普遍具备“千兆到户”能力,推动云网融合进入新时代。
会上,张杰列举了三大运营商在“双千兆”方面的发力情况。
中国移动打造了涵盖“全屋智连”千兆家庭网络、“全屋智能”家居设备、“全家智享”家庭生活的“三全三智”家庭体系,发展400万用户,构建千兆能力。
中国电信基于“5G+光网”双千兆,依托“五智”,构建家庭领域核心能力,计划发展500万千兆用户,实现50%城区千兆覆盖。
中国联通发布“1+4+X”智慧家庭业务战略,推广千兆宽带提速和智慧家庭业务,计划基于“千兆+5G融合套餐”协同发展,实现省会80%覆盖。
▲云网融合的核心架构
云网融合的核心在于计算、存储、传送资源的深度融合。
如何将各类资源结合在一起?张杰认为,“这些资源的异构,不仅是空间、时间,还是技术上都有差异性,需要对网络中各种资源进行编排和控制,定义网络的功能和资源体系,这是我们研究的重点。”
通过云网融合,网络资源能够更紧密地按需分配,把刚性网络变成弹性网络,把资源相对静态的供给变成一种动态的配置,这样就存在统一体系结构、资源协同程度,以及资源随需分配等一系列挑战。
(二)云网融合的资源编排
云网融合的资源编排旨在研究全网业务统一编排和端到端资源控制技术,实现全局协同优化,从而解决端到端业务受理缓慢、异构资源协同控制难的问题。
具体涉及的关键技术包括:全网业务统一管理编排技术、端到端虚拟化安全切片技术、业务统筹调度路径优化技术、计算存储传送资源协同控制、编排器与控制器原型机研发。
▲工作流引擎组成与工作原理
◆全网业务统一管理编排技术:编排器对外提供的业务编排功能基于工作流引擎,当出现新的业务场景时,系统可对现有能力进行重新组合,快速生成新业务以满足需求。
◆端到端虚拟化安全切片技术:端到端网络切片安全模型,可为切片按需定制安全保护机制,从而提供相应的安全服务。主要核心的模块功能,包括身份与权限验证、安全服务定制、资源、管理四大组件。
◆业务统筹调度路径优化技术:将路由请求和网络节点容量建模为输入序列,将路由结果建模为输出序列,通过深度学习寻找输入与输出序列的映射关系,统筹调度业务和优化业务路径,实现网络业务快速编排。
◆计算存储传送资源协同控制:以资源为核心的端到端共享通用框架,统一控制,实现网络资源的有效利用和业务的快速响应。
◆编排器与控制器原型机研发:基于微服务和AI的网络编排和控制器包括设计专业原子能力服务库、集成AI引擎的控制架构、面向AI应用的开放接口。
▲团队自研面向异构资源的网络控制架构
张杰表示,“目前已经完成的工作有,编排器和控制器集成AI引擎,协同控制跨域、跨层、云网资源,资源调度和虚拟网络切片设计,实现多种云网应用。”
(三)云网融合的服务提供
当前,5G+AI带来更多的算力资源需求,而算力存在云、边、端等多种载体。在线教育、云游戏、4K/8K直播、工业质检/巡检、智能家居等新型应用,对基础网络和服务能力提出更高的要求。
在云网融合背景下,如何为AI类服务高效提供算力资源和算力连接?以深度学习为例,模型训练和模型推理是AI服务的两个重要过程。
对模型进行训练,为模型的不同节点进行分配加权。利用训练好的模型,对全新的数据进行推理判断,得到正确答案。
▲基于云网融合的AI模型训练服务
企业通常缺乏AI相关基础设施,云服务提供商需要为其提供AI服务,如数据分析和模型训练。为了缩短训练时间,并减轻单个节点的资源需求,采用云边/边缘协同的形式,可以进行分布式模型训练。
针对数据并行的分布式模型训练,如何优化边缘节点之间训练数据的分配,实现模型训练服务的最大化提供?张杰阐述了实现方案,“重点是对分布式模型训练任务进行建模,涉及训练数据量、训练精度、训练时延等参数。”
同时,通过初始化网络拓扑并计算状态约束(计算和带宽资源的分配和容量约束),以减小资源占用为目标,利用整数线性规划和启发式算法,优化训练服务提供。最终实现降低网络资源的占用率,减少参与训练的边缘节点的等待时间,降低训练业务的阻塞率的目标。
▲基于云网融合的AI模型推理服务
多层AI模型支持模型的灵活切分部署,如深度神经网络(DNN)模型。通过将DNN模型的部分层卸载到边缘节点,减少数据量和传输延迟,有效缓解中心节点的负载。
如何根据DNN推理的时延和网络资源需求,自适应选择模型切分点,将部分推理任务部署在边缘节点?张杰指出,“通过对DNN推理任务进行建模,模型种类、数据量、发布节点和时延等进行分析。”
同时,对边缘和云节点计算资源,以及网络带宽资源进行建模与初始化,提出自适应模型划分方案,解决动态网络场景下模型灵活切分问题。统计结果是,该算法可显著降低DNN任务的阻塞概率,有效利用网络计算资源和带宽资源。
(四)云网融合的核心挑战
“内生安全、操作系统、网络架构、产业生态”四项核心挑战,成为加速迈入云网融合时代的关键。对此,张杰总结了新一代网络技术和网络体系面临的挑战。
核心挑战一:提升网络内生安全防御能力
云网融合需要依赖SDN、NFV、网络切片等新架构和技术,来实现网络虚拟化,而新架构和技术的应用会引入新的安全威胁,如何实现网络的内生安全防御?从网络本身建立起固有的安全性,这是我们需要考虑的问题。
核心挑战二:深耕操作系统,支撑行业应用
云网融合时代,操作系统面临网络、终端、用户、开发者等关键领域的全方位变革。面向行业应用,如何推动操作系统自主化,完成端管云融合?
核心挑战三:平滑演进创新型网络架构
在大带宽背景下,如何实现当前网络形态平滑演进到未来架构,解决局端和终端设备解耦,实现网络智能化控制和端到端业务的快速部署,是云网融合发展面临的重大挑战。
核心挑战四:融合创新业务应用
深度挖掘垂直行业的需求,鼓励信息通信业与工业、交通、医疗、能源、教育等各个行业更大范围、更深层次的协同创新,尽快推动形成新业态、新模式。不断丰富应用场景,推广和普及应用,构建广泛的应用生态。