网络通信 频道

构建高效算网融合体系,加速数字工行建设

  在2024算网融合产业发展大会上,中国工商银行金融研究院基础技术实验室主任曾繁雄以《金融网络算网融合实践与思考》为主题发表演讲,分享工商银行算网融合的探索与实践。

  ▲中国工商银行金融研究院基础技术实验室主任 曾繁雄

  背景介绍

  2000年11月10日正式成立,为工商银行全球集中的数据中心,承担着全集团信息系统生产运维管理、托管服务、基础架构技术研究,运维工具研发、及全集团信息安全一道防线职责,为境内外分支机构及战略合作客户提供全功能、全天候、全时区的信息系统运营服务,支撑中国工商银行集团全球各项业务的平稳运营。

  中国工商银行数据中心积极响应并推动“数字工行”战略落地,通过基础技术应用创新转化,夯实关键信息系统基础设施,赋能生产安全和业务创新。

  国家高度重视人工智能发展,2024年3月“人工智能+”首次写入政府工作报告,人工智能上升为国家战略。业界普遍认为,大模型是第四次工业革命的核心技术,是新质生产力的重要引擎。

  网络作为人工智能算力的支撑底座,《“十四五”数字经济发展规划》将算网融合作为数字经济的重要发力点,明确提出“推进云网协同和算网融合发展,加快构建算力、算法、数据、应用资源协同的全国一体化大数据中心体系”。

  《算力基础设施高质量发展行动计划》明确算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,提出“提升算力高效运载能力”的重点任务,实现算力中心网络高性能传输,并以“算力+金融”赋能金融行业应用发展。

  中央金融工作会议强调要“做好数字金融大文章”,金融业要全面适应数字经济时代的经济社会发展变化,深化数字技术的金融应用。

  工行算网融合实践的思考

  关于对算网融合的理解,曾繁雄指出,结合用户需求、计算资源及网络资源等信息,提供最 佳的算网资源的分发与调配,从而实现整网资源的最优化配置和使用。

  在工商银行算网融合生产实践中主要思考两个问题:

  1、网络如何支撑计算运行?

  2、网络如何感知计算需求?

  基于上述问题,工商银行重点围绕建设云-边-端多层次算网基础设施。

  云(算内网络):以数据中心高性能网络技术为路线,打造高性能网络支撑新型存储体系,以及高性能网络支撑AI智算集群。

  边(算间网络):通过IPv6+广域网灵活调度,广域网流量压缩降本增效。

  端(入算网络):通过SD-WAN支撑入算网络高可靠传输,5G+边缘计算支撑智慧网点。

  该算网融合实践方案提供算网即服务,屏蔽底层网络及算力调度的复杂性。当用户提出需求后,算网协同智能决策自动实现高效的算力供给服务,提升用户体验。

  在算网协同方面,以用户意图感知为入口,理解用户意图并转化为算网调度模型。算网资源的统一协同编排智能调度,提升全局算力供给效率。以数字孪生为基础实现算网仿真底座,为算网协同夯实基础。

  算内网络:数据中心高性能网络技术路线

  工商银行选择RoCE智能无损网络作为数据中心高性能网络的技术路线,研究其高性能、高可靠、高可用等技术特性,不断满足人工智能大模型等系统对算内网络高带宽低延时网络传输需求,以及关键信息系统基础设施信创转型的要求。

  工商银行基于RoCE智能无损网络技术建设安全、可靠、高效传输的高性能网络基础设施底座,并完成场景应用,实现了信创转型,保障信息系统生产安全,赋能智慧金融业务创新的目标。

  应用RoCE网络替代FC传输协议建成RoCE-SAN新型存储体系,解决FC交换机单一国来源的供应链卡脖子问题;支撑工商银行信息系统“两地三中心”高可靠架构,目前已开始全面推广。

  应用RoCE网络实现AI算力节点间高速互联,建成AI智算集群。同业率先实现支撑千亿大模型训练的AI算力集群建设,支撑工商银行智慧金融业务创新发展。

  工商银行开展算内网络技术研究,并支撑存储体系技术创新和应用。建设基于RoCE-SAN的新型存储体系,重点解决存储磁盘机和存储传输网络全面替换,保障供应链安全。建成存储国产化体系“两地三中心”高可用架构,解决了FC-SAN交换机单一国来源问题,实现国产化存储入云和规模化推广。

  采用RoCE高性能网络技术实现AI高算力服务器高速互联,建成“安全稳定、异构兼容、算网协同”的人工智能算力中心,总规模达到数千块AI芯片,总算力达到数百PFlops。实现支撑千亿大模型训练的AI算力集群,支撑工商银行智慧金融业务创新发展。

  随着大模型规模日趋扩大,如何采用技术手段提升网络传输性能及网络可用性,成为AI智算集群确保线性度和稳定性的关键。

  高速互连:基于RoCE高性能网络,攻克动态负载均衡、端网协同技术难点,支撑训练过程中的高速互联。

  协同感知:实现网络拓扑感知的智能调度策略,提升算网协同联动,提升模型训练效率和AI算力资源整体利用率。

  全栈信创:全面支持国产和非国产算力管理平台和训练框架,实现AI算力基础设施全栈自主可控。

  算间网络:IPv6+广域网灵活调度

  工商银行在2021年就已实现全行核心骨干网和境内外一级骨子网全网部署SRv6网络,广域网灵活调度实现业务和广域网服务质量保障联动,在技术运用和覆盖范国上均处于行业内领先地位。

  广域网应如何提升应用感知能力,如感知用户计算需求和应用行为,实现应用驱动的网络调度。

  随着架构转型、中心布局、灾备建设等工作推进,驱动数据中心间数据高速移动的需求快速增长。广域网承载应用流量,如何提升广域网传输效率及有效控制线路带宽成本面临较大挑战。工商银行在同业率先完成广域网流量压缩技术生产落地,助力广域骨干网降本增效。

  广域网流量压缩作为网络增值服务之一,应融入整体广域网架构演进,实现算间网络的网络流向可定义、网络服务可编程。

  压缩技术指标效果好。实现异地灾备流量压缩比1.82-2.6:1,带宽节约率达45%,在生产、研发、测试环境全面落地,全行节约广域网带宽计20Gbps,技术先进性和部署规模均处于同业领先。

  助力核心系统灾备建设。应用灾备数据库异地复制延时大幅下降,从4个多小时降至1分钟内,有效支撑工商银行核心系统灾备建设。

  骨干网资源投入降本增效。广域网流量压缩带来经济效益可观,压缩技术投产后,显著降低广域网运营成本。

  入算网络:SD-WAN支撑入算网络高可靠传输

  工商银行完成SD-WAN技术在10家分行的推广工作,自研集中运管工具实现了对异构厂商控制器的屏蔽,覆盖率从85%提升到95%,获得中国信通院SD-WAN最 佳应用奖。

  端边云协同促进云、边、端算力资源高效融合,助力新型金融业务场景快速落地。工商银行应用在5G+边缘的场景创新,支撑智慧网点的要客识别、迎宾机器人、客户画像、客户行为检测、押品远程监控、信贷巡检监控等应用。

  总结和思考

  回顾算网融合的两个问题,从实践看在网络支撑计算方面相对实践较多,在网络感知计算方面需要进一步思考。

  如何提升网络感知能力?

  当前网络与计算是存在明确隔阂的,两者之间的语言无法同频共振,搞应用需求的人看不懂网络语言,网络也难以识别应用的意图。

  比如说应用的SLA的需求,网络该如何来实现就涉及到网络对应用的感知,包括应用行为模型识别、应用流量模型画像、应用运行状态感知等。而这些算网融合、按需调度,网随算动的技术基础。

  从算网融合的技术演进角度看,需要进一步研究如何演进到算网即服务,实现用户意图可感知、多资源可协同的一体化服务。从金融场景角度看,金融行业更多应该思考如何参与到这个演进过程中,提升金融业的算网调度能力,支撑更多金融创新业务场景。

0
相关文章