【IT168专稿】您的网络健康么?您的网络规划合理么?什么才是评估企业网络性能的关键点?今天我们就一起探讨一下企业网络的可用性和科学的容量规划方法。
可用性是衡量网络服务的重要指标之一,可用性是指一段时间内,系统正常工作时间占总时间的比率。
网络可用性指标的用途有:
业务部门可以明确了解网络对服务的支持水平。
网络设计人员可以了解设计目标,采取相应的技术和产品达到此目标。
运维人员可以了解对运维的需求,提供相应保障力度。
最终用户可以了解自己所得到的服务水平。
现在有的企业已经有明确的网络可用性衡量考核目标,而那些没有明确的衡量指标的企业对网络可用性也是十分关注,因此,需要建立网络可用性衡量机制以明确可用性的度量。
网络可用性主要涉及到两个问题,一是如何提升网络可用性,二是如何衡量网络可用性。
再好的管理,我们也不能做到绝对的避免网络事故的发生,但是事故是由一些潜在的风险和隐患造成的,在设计和运维的过程中可以及时发现和规避风险,最大程度上避免事故的发生。总的上说,可以从网络组件、网络架构、网络协议与配置、网络运维、网络基础支撑这五个方面来考虑提升网络的可用性。
基于网络组件上的考虑
引入组件生命周期管理,保障重要设备,部件都能及时得到支持和服务。在网络关键部位使用那些已经停止支持、即将下市、得不到维修保护、无法更新的产品对网络的可用性非常不利。
对功能相同的网络组件进行标准化,尽量统一到近似或一致的软、硬件版本,以便维护管理。
产品生命周期图如下
基于网络架构上的考虑
不同用户在网络架构规划维护上存在很大差别:没有仔细规划过的网络随着网络发展会有较多难以处理的历史问题;经过仔细规划但在维护过程中一些原则被打破、设计特性被修改的网络,它们的原规划会变的模糊不清;经过较好规划,而且及时修正规划、调整网络、定期审核规划与现状差距的网络则有很好的可用性。
因此建议定期组织各方面的专业人士对网络架构进行审核修订。具体内容涉及:业务部门的业务变化和可能的反馈、设计人员的架构变化、运维人员在运维过程中的常见问题和运维痛点、外部专家对技术风险和发展趋势的评估预测。
基于协议配置上的考虑
具体的协议、配置优劣对可用性有显著的影响,快速收敛,协议参数调优等有助于提高冗余部件间的切换时间,对提高可用性有较大意义。因此建议建立统一的配置模板,并针对路由收敛、冗余协议等进行优化。例如可在整个的运维过程中将端口下的配置、说明、log、网管上的配置建立一个统一的标准和优化机能。
基于运维上的考虑
供应商服务管理。包括厂商需提供适合的备件服务水平和电信公司对线路服务质量的监控。
完善基本的监控体系与管理流程。包括:基本的网络监控与事故管理、问题管理、变更管理;基于业务的事故定级、问题根源分析、变更与回退计划;软、硬件版本管理、生命周期管理;远程设备的带宽访问。
重要变更、上线前的测试,需搭建好相应的测试环境。
检查配置是否符合规定。
重大事故的快速响应演练。包括跟用户交流,快速的联系到后台的支持厂商,做好利益相关方的沟通。
定期的网络架构评估与优化。
基于基础设施支撑上的考虑
从实际中看,由基础支撑引起的网络问题占显著的部分。具体的基础设施支撑要考虑到:1.电源,包括供电能力,UPS,电源冗余与网络冗余的配合。2.空调方面的粉尘情况和温度监控。3.布线上的走线空间,标签处理。4.电信接入上需处理好多供应商分别接入情况。5.其他方面,如防雷击,静电防护等。
如何衡量网络可用性
通常涉及到两方面的考虑。一个是设计时的考虑:对关键路径可用性值的理论估算。另一个是运维中的考虑:从用户的角度,对实际服务可用性的测量。
关键路径可用性值的理论估算
估算时采用 元件可用性→组件可用性→系统可用性 的估算进程。如下图:
其中元件可用性包括元件的平均持续工作时间(MBTF)和维护水平(MTTR),组件可用性在元件可用性和组件构成关系上构成,系统可用性则在组件可用性和可用性连接关系上构成。
下图为关键路径理论可用性计算示例。由实际的网络连接图简化成可用性逻辑关系图,将具体设备的可用性值代入可用性逻辑关系图可计算出关键路径可用性。图中列出了组件串、并联时可用性计算公式。
服务可用性的实际测量
实际运维中往往从最终用户的角度测量服务可用性,根据网络提供的不同服务,建立不同的可用性模型,而实测的原始数据往往还需要根据故障发生时间、用户是否得到通知等进行修正。
几乎所有处在业务成长中的企业都会有网络容量的问题。企业也许一开始建立网管系统的时候不太能意识到这方面的问题,但当故障管理、问题管理、变更管理、版本管理逐渐展开的时候,容量规划的需求就慢慢出现了。网络容量规划的开展需要有相应的管理能力作基础,包括对业务需求的了解,对网络资产、配置、拓扑的了解和对网络的长期、深入的监控。
与网络容量相关的内容涉及四个层面:基础层面、设备层面、链路层面、协议层面。各层面具体的一些内容如下:
基础层面:机房空间,电力、空调、走线空间。
设备层面:CPU/Mem/交换矩阵/总线利用率,并发连接数,License数量,端口数,插槽数。
链路层面:带宽利用率,业务带宽占比,QoS各队列带宽利用率,数据掉包率。
协议层面:IP地址。
上面各层面的具体内容根据其变化特性,可分为强波动性和弱波动性两类。如CPU利用率、链路带宽、并发连接数属强波动性,IP地址占用、机架空间、端口占用、槽位占用、License占用属弱波动性。弱波动性的内容在扩展时比较容易统计、估算,而对强波动性的内容有的时候可能会缺少好的方法。
网络容量规划的方法:
首先建立网络容量模型:建立上层业务对下层网络基础的依赖关系;了解新增业务对网络容量的需求和进一步的对底层基础的需求。
其次在建立的网络容量模型基础上对一些重要参数进行趋势分析。
简单的网络模型图:
以强波动性的链路流量为例,介绍一种实用的趋势分析的方法。
通常情况下,我们会对链路流量进行长期监测,但是如何评价它会有一些问题。
简单的统计方法,可能很难得到满意的结果。例如统计过去一段时间的平均利用率,但平均值可能和峰值离的很远;统计过去一段时间的峰值,但峰值不能反映长期的平均水平;统计过去一段时间的峰值出现频度,但难以识别其规律,难以估计未来的发展趋势。
实际的解决可以采用序列分析的方法,把事物的发展看成趋势、周期、随机三类因素影响的总和。如下图。
使用多次移动平均(Moving Average),可以将周期、趋势和随机因素解耦。移动平均的具体方法是,对于一个序列,以N为周期,向前遍历求平均值得到一个新的序列。如下图,a1-a7是原始序列,周期N=3,b5是a5、a6、a7的平均值。
通常网络中的一些参数(如链路流量),通常是以天或周为周期的因素变化。所以,相应的可以以天为周期作移动平均来消除一天中的波动,或者以周为周期作移动平均来消除一周中的波动。
如下图是一个具体的例子,一个实际的链路流量图,通过每两小时采一次端口平均流量(Bytes/Sec),连续采集两个月(如 8月22,12:00 p.m.-10月22,12:00 p.m.)共732个采样点绘出。其中横轴是两个月的时间,纵轴为端口流量值。
从上图中可以看到:每天的双峰波动规律较为明显;每周似乎可以看到一定的波动;而从10月4日到6日有一个明显的链路流量高峰,在两个月中的其它时段是没有的。
对上面的统计图做分析可以采取如下的方法和步骤。
1.以一天为周期做移动平均,消除一天中周期波动的影响,如下图。
图中蓝线为原来的统计曲线,红线是做平均移动后得到的曲线,从红线中可以看到明显的以星期为周期的规律(中间10月4日到6日为特例)。
2.进一步以周为单位做移动平均,消除一周中周期波动的影响,得到长期的趋势。如下图。从图中可以看到长期的平稳的趋势。
3.除去长期趋势的影响,可得到只含每天周期和随机因子的曲线,如下图。图中,横轴为时间轴(两个月),纵轴为各时刻实际采样值与以天为周期移动平均后的值(可参考前图)的比。该图反映了一天内各时刻值和移动平均值相比的波动状况。
在上图的基础上,对每天同一时段的波动因子取平均,得到一天内不同时段的周期影响因子,如下图。
4.同理,还可以计算出一周内各天的周期因子,如下图。
5.到现在,我们已经得到了趋势图和周期因子(一天的和一周的)。除去趋势和周期因素的影响,则得到随机因子,如下图。
可以用统计的方法验证其随机性,以说明我们对周期因子提取的比较全面,该序列的标准差为0.032,即平均有3.2%的波动。
6.对趋势进行拟合,拟合时剔除异常情况的影响,可得到回归拟合后的趋势图,如下图。
在上面回归拟合趋势图的基础上,结合周期、随机因子进行外推,可得出未来两周内的推算流量图,如下图。
上图中,蓝色曲线部分为(10月22日)之前一段时间的实际采样图,红色虚曲线为推算的未来两周流量图,上边的绿色虚线为包络线,是在前面的平均波动值3.2%乘三之后绘出的波动上限。一旦哪一时段的实际流量值超出了绿色包络线,则可认为是出现了重大事件或者是有一些方面(如业务模式、网络路径)做出了人为的改变。
上面介绍的这种分析方法的主要目的是掌握链路流量的平均水平和变化规律,可以用它来进行短期的预测,但预测的结果仅仅作为一个参考,因为网络之外的很多重要因素好是不可控的,如新业务上线、网络结构变化、病毒爆发等,这些影响可轻易地突破预估范围。
但是,通过这种趋势估计,一旦实际情况与估计出现较大偏离,我们可以认为一定有不寻常的事件发生了,比如实际情况中的10月4日到6日出现的高峰。结合Cisco Netflow技术,对主要应用的带宽使用情况进行趋势分析和预测,则可以达到更好的容量规划效果。