网络通信 频道

大地云网:SDN架构下云网报文大数据分析系统

  【IT168 案例】超大规模数据中心和云平台网络采用SDN技术已成为必须而通行的策略,但是银行和金融客户在向SDN架构转移的商用实践过程中,遇见一个不能回避的基本挑战:由于多租户虚拟网络采用大二层隧道封装报文,行业过去依赖已久的传统报文分析系统无法有效地定位与关联识别云网络中动态变化的虚拟流量、 无法按需进行精细化流量镜像。 现有的补救性方案不仅部署维护成本高,自动化程度低,而且不能满足中国市场大规模、高性能、可扩展性等基本要求。急迫需要创新全新的基于SDN架构的云网分析体系。

  2016年底,北京大地云网科技有限公司与相关科研机构合作,根据国内银行和金融客户云网报文数据架构的技术实现和运维的商用实践真实要求,采用独立于硬件设备和厂商的全软件、全开放模式,结合SDN技术、云计算技术、大数据技术、微服务技术,在国内创新研发并部署实施了业界首套基于全新架构的云网络报文大数据分析系统, 根本性地解决银行和金融客户在新的云网络生产环境中传统报文分析系统无法适应监控运营的根本挑战。

  案例背景

  一套优秀的网络流量监控分析系统是银行和金融领域网络运维的最基本和关键的技术支撑。 传统的网络流量监控手段在云平台的环境下面临着一系列的根本性的挑战,银行和金融领域用户面临的痛点包括:

  ● 无法识别云网络的流量,尤其是带VxLAN报头的租户流量;

  ● 无法对各租户的网络报文进行细粒度的按需弹性镜像;

  ● 与云平台中的元数据信息无法关联;

  ● 无法将租户的虚拟网络流量(Overlay流量)与实际在交换矩阵中传输的物理流量(Underlay流量)进行关联;

  ● 高动态,无法静态配置镜像:云中的租户虚拟机是可以全网迁移的,不可能为每个租户、每条链路都配置探针设备。

  ● 多源数据无法进行聚合。

  ● 成本高:不可能为每个租户都额外配置探针设备;

  不解决这些根本的挑战,银行和金融领域用户就没有办法进行业务的高效地运维和快速确定的故障诊断,就没有办法大规模地采用云网架构来实施关键且敏感的金融应用业务。

  案例解决方案概述

  图1:云网络报文大数据分析系统解决方案的网络拓扑逻辑图如下:

大地云网:SDN架构下云网报文大数据分析系统

  该系统分为云网报文大数据分析系统,流量镜像分析,大数据平台,用户操作界面/后台和虚机探针几个组件,云网报文大数据分析系统组件实现了云平台元数据的管理和镜像管理的功能,流量镜像分析组件实现了网络镜像流的分析功能,大数据平台实现了海量数据存储和交互式查询以及OLAP的功能,用户操作界面/后台实现了用户使用该系统的功能,虚机探针组件实现了主动流量模拟和监测的功能。

  系统架构图和相关技术特点,网络拓扑图

  图2:云平台和SDN网络元数据管理组件架构:

大地云网:SDN架构下云网报文大数据分析系统

  云网报文大数据分析系统中间件,通过南向调用网络SDN控制器来获取Underlay的原始数据,包括物理设备信息以及拓扑。通过南向调用Openstack RestApi来获取Overlay的信息,包括虚拟机以及Nova ServerGroup的相关信息。通过把获得信息存储到图数据库Neo4j中,通过图的相关计算,来构建Underlay和Overlay的关系。同时,通过专门的设计,可以对镜像流量进行精准定位,实现镜像流量到租户、应用以及业务的对应。中间件对北向提供拓扑和Span相关的API,通过北向API,可以提供应用层的元数据查询,比如应用组、业务等;提供物理拓扑的查询;同时也提供反向查询。

  图3:流量镜像组件架构:

大地云网:SDN架构下云网报文大数据分析系统

  流量汇聚到tap设备以后,经过分流交换机,以packet hash作为key,将网络包分发到不同的镜像分析组件上。处理后,以pcap,packets和flows三种文件形式发送到大数据平台上。

  图4:大数据平台组建架构:

大地云网:SDN架构下云网报文大数据分析系统

  数据进入大数据平台后,会以数据本身格式进行保存。后台大数据对这些不同数据源的格式进行统一化处理,转化成易于查询的格式。用户界面根据分析需求,将结果返回给用户界面。

  方案亮点

  ● 通过对云平台的元数据集成实现了从业务层到虚拟层到物理层的全方位细粒度的监控和分析。

  ● 自动梳理业务组之间的流量关系和服务依赖关系并以可视化的方式展示。

  ● 提供对业务端到端的流量、时延等一系列指标的监控。

  ● 提供面向大型数据中心的高性能可扩展的报文收集处理节点,并基于大数据组件支持海量数据的存储、分析、交互式查询等功能,用户还能自定义查询条件做事后的数据挖掘工作。

  ● 自动分析业务流的质量并对出问题的流的网络包存储到大数据平台做事后的回溯和复盘分析。

  ● 基于收集的网络数据通过机器学习等技术提供对潜在问题的主动发现和预警的能力。

  ● 云网监控平台除了分析1到3层的网络报文外,还能支持4到7层的应用层报文解析;同时用户也能通过插件的方式自定义应用层的解析;解析后的信息可以用大数据工具做数据的分析和挖掘工作。

  商业价值

  案例实际效果适用多种云环境下的应用场景,让客户实时掌握网络质量和云网动态监控,了解云网服务的业务逻辑,第一时间发现和诊断基于业务视角的网络故障,快速理解IaaS与SaaS的关联关系,支持结合机器算法深度挖掘网络数据全部价值等。

  ● 大流量全视角监控

  以全局视角巡视业务,第一时间了解业务流量,实时秒级监控,纵览业务总量、峰值、低谷等统计信息。同时支持历史数据细粒度分析,可自定义查询时间、选择对应租户和业务类型。

大地云网:SDN架构下云网报文大数据分析系统

大地云网:SDN架构下云网报文大数据分析系统

  ● 实时触发告警

  实时定位故障点,故障信息精确到业务流数据,明确故障时间点、故障原因和故障严重程度,助力运维人员快速恢复网络问题。当前支持手工预配和机器学习。通过机器学习技术主动发现网络数据潜在问题并提供预警能力。

大地云网:SDN架构下云网报文大数据分析系统

  ● 原始报文回溯

  用户还能自定义查询条件做事后的数据挖掘工作;

  深层解析应用类型和应用内容;

  支持数据包报文导出到本地,帮助运维人员随时回溯、取证和分析。

大地云网:SDN架构下云网报文大数据分析系统

  ● 业务层到虚拟层到物理层的全方位细粒度的监控和分析

  云网大数分析系统帮助运维人员一键查询SaaS层关联IaaS层的业务路径与物理拓扑的关系,轻松定位问题所在,从业务平面、虚拟平面、物理平面,详细查看统计信息并找出问题所在。

大地云网:SDN架构下云网报文大数据分析系统

  ● 自动梳理、可视化业务组之间的流量关系和服务依赖关系,监控业务端到端的流量等指标。

大地云网:SDN架构下云网报文大数据分析系统

  ● 提供面向大型数据中心的高性能可扩展的报文收集处理节点

  ● 基于大数据组件支持海量数据的存储、交互式查询等功能

  ● 自动分析业务流的质量并存储网络包到大数据平台做事后的回溯和复盘分析

0
相关文章