网络通信 频道

小康巡诊日记-网络经脉篇之故事(3)


  
  
  [症状]周末,要下班了,我正在计划如何安排假期,接某银行来电,报告该行某支行下辖的西区营业部网络瘫痪,营业部所管理的33台ATM取款机也全部不能提供取款服务,用户反响强烈。已经两天了,解决都没有问题,要求网络医院立即派人帮助排除。
  西区营业部和支行在同一个大院的两幢大楼内,之间用一对90米的光纤将营业部的网络与支行的网络连接起来,路由器、服务器等都设在支行计算中心(100BaseT以太网)。营业部的网络结构为10BaseT以太网,五天前发现网络速度变慢,用户抱怨ATM取款机等待时间太长。由于营业部没有配备任何网络测试和维护的工具,为了定位故障,请支行计算中心的网管人员协助检查。从支行一端的网络监测显示,一切正常。从计算中心打开营业部交换器的Mib,观察流量正常,为5%,发现只有很少量CRC/FCS错误,没有发现严重异常,用协议分析仪捕捉数据包观察,也未发现严重的问题,遂怀疑是病毒侵害营业部子网。昨日夜间进行了查杀病毒,重装系统,恢复数据等工作,症状大大减轻。但未能经受住昨夜暴风雨的考验(本周天气除昨天下午间晴外,连续降雨),最终于今晨“死网”。
  为便于观察,支行网管人员在计算中心将连接营业部的交换机用集线器暂时取代,结果导致支行网络速度也变慢。检查营业部内的交换数据无障碍,断定是传输通道的问题。拔下光纤,支行速度恢复正常,插上光纤则上述现象重新出现。进一部测试光纤链路,连接和衰减均符合要求。故障排除工作陷于停顿。
  [诊断过程]据网管人员介绍的上述情况,光纤和交换机已经过了网管人员初步检测,基本正常。可以初步判定问题出在链路通道上。将F683网络测试仪接入营业部交换机,观察网络基本正常。进行通道测试,检测营业部到支行的ICMP Ping测试结果,成功率约0.8%,路由追踪支行服务
  器,成功率约0.5%。从支行集线器上观察,流量18%,属正常范围,但发现大量“幻象干扰”错误“Gosts”(16%),拔除光纤,则错误为0%,至此可以肯定错误与营业部网络及其通道有关。将营业部与支行连接的交换机接口串入一个4端口的集线器,用F683网络测试仪观察网络,流量5%,发现大量幻象干扰(97%),拔除光纤,错误消失。寻找光纤接线箱,发现支行一侧的接线箱外包装已被撞击变形、破损(据说是半年前安装空调时被吊车臂碰坏),雨水已将3号接头完全浸蚀(3号接头用于连接营业部)。清洁接线箱内的所有光纤接头,用电吹风加热干燥光纤的插头插座,重新更换并密封接线箱,故障彻底消失。
  [诊断评点]光纤链路经常被忽视。本故障中,光纤接头因雨水侵蚀和污染,从营业部送来的信号被大量反射,此时若只测试光纤链路的物理性能是合格的。但由于此段光纤只有90米,强反射信号经过较少的衰减后与正常信号叠加,破坏了数据的结构(包括数据帧帧头信号格式),网络测试仪即认为这是幻象干扰信号而不是正常的数据信号。此时只有少数信号可能侥幸通过。由于集线器和交换器不具备前期碰撞的识别能力,所以从网管上只能观察到数据帧后半部分被破坏后所表现出来的少量FCS/CRC类型的错误,此错误往往被人忽视。
  昨天重装系统后因天气转晴,光纤接头性能有所好转,症状减轻。昨夜暴雨又使网络陷入灾难境地。加上今天测试光纤链路显示正常,致使故障排除陷于停顿,束手无策。
  [建议]交换器对均衡网络负荷、隔离故障网段对网络的影响有很好的效果,但也因此经常成为网管系统监测中的“黑洞”。用网络测试仪定期监测网络可以将故障消灭在萌芽状态之中。定期测试分很多种,我们将在以后的连载中陆续介绍。本故障如不及时处理,其它光纤接头连接的网络也会陆续出现严重问题。

文章转载地址:http://cisco.chinaitlab.com/configure/11483.html

0
相关文章