网络通信 频道

电源受扰导致网络故障

计算机网络的供电环境在设计时,一般主要考虑采用有一定冗余量的不间断电源,部分对可靠性要求高的网络还要备份一定容量的不间断电源(热备份),以免电源缺失导致数据丢失。冗余供电能力一般从30%~300%不等,并常为网络扩容适当留有部分富裕。如果某个运行某种数据库的服务器故障,除了它自身的磁盘冗余阵列保护、多芯片保护、多网络接口保护外,还可以启动多机保护(备份),准实时备份等、异地备份等等。但是,如果一个用户采用250KW的UPS系统将所有网络设备的电力供应都挂接上去,那么当UPS本身出现致命故障时,等待用户的将是设备的全面失效。一般建议,对实时备份数据要求高的应用环境,电力供应设备应该采取热备份措施。并且,备份设备的电力供应要与主工作设备的电力供应分离,同时定期检查备份设备的响应功能,这样才能完全避免陷入“概率深渊”的悲惨境地。从可靠性上考虑,一般建议每30~50台设备可以考虑设置一组UPS电源,重要设备要单独供电并取电力供应热备份。数据备份设备的电源绝对与主工作设备的电源供应隔离。可以选择热备份方式。某些大型用户热衷于采用大容量供电设备集中供电,除了可能陷入“概率深渊”外,遭受故障侵袭的可能性也会提高。
某中心城市的一家大区银行,某日发现自己的网络处在“软故障”的包围之中,网络故障现象时断时续,呈现出周期性“发作”特点:每隔10分钟左右在其辖区内就有部分支行或分行打来电话报告业务流程出现问题。具体表现各处报告的都很一致:先是流程业务中断,普通Ping测试无响应,1分钟后连接恢复,但速度非常慢。此故障已经持续了2天,网管人员怀疑是路由器故障,曾试着分别更换了备用的同城结算路由器和主路由器,无效。此现象以前也出现过几次,但因为很快就恢复了,所以也没有引起足够重视。
故障范围涉及比较大,无论是本城辖区还是大区内的远程网络都报告路由中断现象。由于故障每隔10分钟左右就会周期性地出现,虽然比较频繁,却为故障诊断提供了很大方便。选择任意路由进行连续的Ping测试,监测其连接状况与故障发生时间关系。为此我们网络测试仪F683接入计算中心网络进行监测。选择曾报告过故障的一郊县路由器作连续的ICMP Ping测试。测试结果指示响应时间为9ms,初看起来,这一响应时间参数质量尚可。3分钟后,有下辖用户开始报告故障现象出现。观察网络测试仪,显示参数正常,这说明我们监测的路由链路基本上是正常的。立即改变监测方向,向报告遇到故障的用户的路由器做ICMP Monitor,结果大量的目标不可达记录出现,同时伴随着“源限制”、“回应请求”和“回应响应”帧出现。20秒钟后,开始出现大量的“重定向帧”,而仪器指示单位时间内“目标不可达帧”的记录数量则减少,“源限制”、“回应请求”和“回应响应”帧大量出现。
以上记录表明,路由器的动态路由表在故障出现时发生了很大变化。网络原来的路由中断后,继之被重定向路由取代。打开静态路由表,为了与动态路由作比较,我们启动F683分段路由追踪功能,追踪从测试仪到先前报告故障的远程路由器。可以看到,路由在本城出口的下一站,即与大区中心链接的第一个路由发生了中断。动态路由已经由备份路由取代。状态:拥塞。
查看网络拓扑图和文档备案得知,原路由为主路由,通道速率为基群E1,格式为ATM链路,备份路由为DDN基本速率链接,速度仅为64Kbps。打开主路由器的Mib库,观测到主路由器的流量为0.02%,错误为2%;表明它处于轻负荷状态,并有少量错误流量。观察备份路由器的Mib库,流量显示为100%,说明它处于超负荷运行状态。
由于故障为周期故障,为了观测它的发生规律,我们在征得“病人”同意的前提下,决定不急于寻找主路由器中断和拥塞的原因,而是先观测在一个周期里故障变化的全过程并记录之。我们用第二台网络测试仪和网络故障一点通接入网络,分别观察主路由器、备份路由器、主服务器的工作流量和错误,并对主路由器作连续的ICMP 监测。约8分钟后,主路由器流量开始迅速上升,备份路由器监测发现“重定向帧”。约15秒后报告备份路由器退出优化路由,动态路由表恢复到与静态路由相同的设置。网络完全恢复正常。
分析故障关系,备份路由因为主路由出问题而接替工作,承担大流量的冲击,由于不堪重负,网络速度当然会变慢。可以断定故障的最大关联设备是主路由器。由于用户在机架上已经安装了冷备份的主路由器(上次更换后还没有来得及拆下来),为了验证是否是路由器本身的问题,我们又一次将冷备份的路由器替换到主路由器的位置。5分钟后,路由器更换完毕,开机接入网络,3分钟后网络恢复正常。但只持续了2分钟,故障现象又重新出现。看来,有必要对主路由器及其周围链路接口、工作环境等做一番详细的监测才能发现真正的故障所在。
该网络建构的拓扑是:主路由器与三个外区远程路由器和一个本地路由器相连,我们可以先用网管系统同时监测这几个路由器的工作状况。报告的监测结果如下:故障出现时,外区主路由器和本城路由器的路由表随着故障的出现也发生变化,而此时“同城结算业务”却不受影响。受影响的业务方向是外地与本城、本城与外地、外地经本城然后跨区路由等。用Fluke ATM测试仪测试远程ATM路由通道,将远端ATM交换机Loopback(环回)以后监测三个方向的通道情况,两个周期观测下来显示路由链路完全正常。再对与主路由器相关的所有连接电缆进行测试,全部都合格,这表明主路由器的工作环境是基本正常的。此时我们需要了解主路由器链路中的经常影响链路速度的“垃圾流量”的分布和统计。但由于网络医院的流量分析仪出借给了别的“病人”,所以我们暂时不能观察主路由器的详细流量状况。实际上,因为已经试验更换过主路由器,所以只需要严格检查主路由器有无来自网络内部的大流量攻击或占用、错误帧是否出现以及工作环境油污异常,比如设备接地质量、供电环境异常、周期性辐射干扰(可能来自内部或外部)等等,这些因素当中的任何一个不符合要求,都有可能引发主路由器中断的故障。
网络测试仪没有观测到大量错误出现和大流量帧攻击主路由器。检查为主路由器供电的UPS电源,发现当故障发生时UPS显示过载,其输出回路却显示轻负荷。用F43电力质量分析仪观察也显示故障时输入谐波超差6倍。输出回路超差400倍,故障恢复后,过载指示也随之消失,但输出回路仍超差80倍。这证明UPS电源的滤波功能低效。
用一台好的小型UPS将主路由器单独供电,开机后监测两个周期故障现象均不再出现,继续监测了近4个小时仍然正常。这说明故障原因是供电质量不合格。我们注意到,计算中心所在的大楼正在装修,等大楼装修完毕后还要将网络设备扩容。初步推测干扰源很可能就来自与装修有关的部分。由于故障的周期性,经过仔细观察发现,故障出现的周期与楼旁塔吊的搬运货物的上下周期非常一致!为准确判定谐波干扰的源地点,我们将F43电力质量分析仪接入供电网络进行核实,结果发现,每当塔吊上升时,故障现象就出现(下降时谐波为上升时的三分之一,网络有少许变慢)。
故障的真正原因是,为主路由器供电的UPS电源由于失效,对外界电力干扰谐波的过滤能力下降,当为重负载的用电设备供电时,此谐波会引发许多设备出错。正如本故障中UPS电源滤波失效,则相关设备会受到谐波干扰。谐波干扰在现代电子设备大量使用的今天其危害开始受到重视,谐波除了直接破坏EMC,干扰各种敏感的网络设备外,更经常地由于引发高频涡流损耗而将本身轻负载变压器等过载烧毁。以前在非线性电源使用较少的条件下制定的许多供电质量监测参数正在被修改,谐波参数现在是衡量供电质量的一个非常重要的参数。本故障中,主路由器由于大量谐波干扰从抵销的UPS进入,使得链路阻塞,路由器连接中断,路由变更指令使得各业务流量流向备份路由器,备份路由器的路由通道能力又不能满足业务需要,致使网络出现拥塞。这就是本次故障先中断后恢复然后阻塞的原因。同城结算数据由于多数不经过计算中心向内的主路由器,所以未受到影响。
塔吊下降时,虽然引入的干扰也不少,不过因为其干扰的绝对值未超过主路由器的承受范围,所以主路由器还能应付。大楼装修以前也出现过类似的故障,因干扰源很快消失并不再持续存在,因此不可能引起维护人员的注意。与电缆和光缆系统一样,电力谐波和UPS电源的定期检查也都被列入网络维护检查的定期检查的项目。一般建议作半年定期检查。而关键的网络,建议作为周定期检查的项目。谐波干扰是经常存在的环境因素,如果此时UPS电源不出问题,一般不会影响网络的正常运行,但谐波干扰是严重影响网络性能的原因之一,一旦窜入网络则引起的故障多数都是“致瘫性”或致命性的。还由于多数用户对干扰类型的故障“相当地”不熟悉,故提请大家引起较多关注。

文章转载地址:http://www.365master.com/kt_article_show.php?article_id=883&categ_code=10151002

0
相关文章