网络通信 频道

网络故障日记 (下)

 第二部:网络脏腑篇
  
  
  [故事之一] 服务器网卡损坏引起广播风暴
  
  
  [症状]今天是周末,和家人及朋友一起正准备登上“黄山二日游”的旅游列车,忽接网络医院“急诊呼叫”,心想这下完了,整个休假计划准要泡汤。不出所料,某银行向医院求助,其西城区整个网络瘫痪,与电脑中心的联络基本中断,只偶尔有部分交易能达成,但速度很慢,不知何故。由于电脑中心的网管系统也陷于瘫痪状态,无法观察任何网上设备的情况。
  
  [诊断过程]从火车站匆忙告别家人和朋友直奔该行电脑中心,途中与中心主任继续联络了解情况。系统故障是凌晨4:30左右出现的(约4小时前),值班员当时发现网管系统有报警信号,20秒钟后网管机就基本上处于死机状态了,想进一步了解故障,遂将系统重新启动过三次,每次网管机都在20秒钟左右失效,而主服务器和网管机脱机自检均正常。
  
  询问各营业所网络内部工作情况,回答正常,只是交易动作无法实现。可以基本断定故障就在中心的计算机系统中。中心除了配置有HP公司的网管软件OpenView外,没有再配备其它任何网络维护工具。所以一旦网管系统不能正常工作,运行维护人员也就无从下手。东城区和西城区的网络主服务器分别在两个不同的网段中,之间用交换器连接起来。全城结算主机与东城区主服务器在同一网段。用F683网络测试仪接入东城区正常工作的网段观察,发现Cisco5500交换机的Plot3Port4(第3插槽的第4端口)有异常流量,而该端口连接的正是西城区主服务器和网管系统所在的网段。为更仔细地观察此网段的工作情况,将F683网络测试仪和协议诊断器PI接入该网段,测得网络持续流量为97%,其中错误帧占98%。错误类型为短帧40%,帧常50~60字节不等,长帧58%,帧长3000~5200字节不等,并报告了出错机器的Mac地址。依此地址查找对应的机器,遗憾的是该电脑中心没有Mac地址备份表(只有IP地址和符号名对应表)。试着用ICMP的Ping查找网管机和服务器,显示Mac地址对应的是服务器的IP地址。重装服务器网卡驱动程序,无效,用F683测试服务器端口,协议显示Unknown,更换服务器网卡,重装驱动程序并设置响应参数,重启系统即恢复正常。
  
  [诊断评点]服务器网卡已经损坏,发出的数据帧错误率为98%,只有不足1%的数据正常。所以网络偶尔还有交易可以达成。我们知道,超长帧有封闭网络的作用,主要是引起网络速度变慢或网络瘫痪,而短帧达到一定流量则会对网络设备的工作协议造成一定程度的破坏,引起设备死机(实际测试中发现工作站对此更敏感些)。网管机上网时在收到高错误流量帧后约20秒钟即被破坏死机,无法观测参数。
  
  许多设备在自检时只检查部分参数(有些参数尤其是某些物理参数无法仅靠自检来测试),此案例中网管机和主服务器自检表现正常,而实际上主服务器的网卡物理功能已经失效,但在自检时与操作系统的通信协议能正常工作,靠1%左右的正常帧可以维持极低的网络活性。其它网站会在高流量错误帧的“轰炸”中陆续丧生。
  
  [诊断建议]交换机用来隔离网段和网络故障有较好的作用,主服务器、网管机等重要网络设备应以独享交换机端口为佳,不宜再用共享式集线器连接上其它设备,这样可以迅速孤立出故障设备,减少因网络停运造成的损失。如果恰好遇到交换器故障,那么根据网络拓扑结构图就可以迅速定位交换机的问题,提高维护工作的时效性。另外,Mac地址是文档备案的最重要内容之一,除了用于排除网络设备故障有极大方便外,对于迅速查找我们称之为“恶意用户”的非合法上网成员也有很大帮助。
  
  [后记]您当然不会想到,两个小时后我们乘上了另一列开往黄山的列车,心情还不错。
  
  
  [故事之二]交换机软故障:电路板接触不良
  
  [症状]今天的“病人”是某大型证券公司,在全市有近11个营业网络。以下是该公司信息中心工程师对故障现象的描述:
  
  一段时间以来,整个网络交易时常中断,有时一天内会出现2~3次。起初每次持续的时间很短,没有引起我们的足够重视;我们做过简单的测试,约几秒钟至十几秒钟不等,规律性不太明显,一般开市时都正常。随后一段时间“病情”不断加重,发病频率不断增加。好几个“资深”用户曾向老总抱怨,近来碰到几次原本估计十拿九稳的网上交易不能及时成交:“当我按下交易确认键时,计算机对此却没有任何响应,也不知道成交了没有,只好再等上一会儿。我给伙伴们介绍的绝招是,过半分钟再试,计算机就会显示成交。不是每次都这样灵光,但以前极少遇到这种事,而最近一周已经遇到好几次了,好象一天比一天厉害,搞得我们的神经紧张兮兮的。”
  
  昨天15:26,临近下午闭市时,故障现象再次出现:行情数据的显示和更新都正常,就是普遍不响应交易命令(但不是绝对不响应,其中仍有少数交易能成交),11个子交易网络均反映受阻。网管人员初步判断是中心网络的问题,立即在电脑科计算中心检查交易服务器,CPU利用率、协议交换及包交换等指示正常,试验重新登录服务器和Ping测试也正常。时间到,转为休市状态。休市后保持交易网络继续运行,启动模拟交易功能模块,进入故障诊断作业程序。在计算中心LAN内连续作了40笔模拟交易均成功。同时在3个子交易网处作对内和对外的模拟交易,对内100%,对外成功率约15%左右。基本上可以肯定故障在网络本身。保持模拟交易连续工作状态,启用计算中心的网管系统查看网络,服务器工作状况指示正常。检查与其它11个营业网络的联系的交换器端口,有流量指示,但时有停顿。对其作Ping测试,偶尔会有中断(约有3%Ping测试不响应)。用DSP-100电
  
  缆分析仪检查与交换机连接的端口电缆链路(服务器、网管机均在此网段内),没有问题。这说明服务器所在网段是正常的,怀疑是交换机端口损坏。将与服务器网段的电缆改插在别的交换器端口并作相应设置,网络恢复正常工作,故障消失,确认为交换机端口损坏,心想总算可以松一口气了。不料,今日开市后不久故障依旧如期“光临”。
  
  
  [诊断过程]晚上19:50我们赶到该证券公司所在地,立即启动系统,自检显示正常。然后启动模拟交易系统,观察与子交易网络的通信情况,表现正常。网络拓扑图上显示各子交易网络是用DDN专线通过路由器与计算中心本地网段的交换器联系起来。打开各Router的工作表Mib检查,无异常和错误记录。逐个检查交换机各端口工作表Mib,亦无异常和错误记录。交易服务器和网管机同在一个网段,通过一个智能型集线器连接到交换机端口。打开集线器工作表,记录数据正常。将F683网络测试仪接入集线器端口进行连续监测。同时启动测试仪流量发送功能,抽查3个子网的通道性能,并做体能测试,持续流量承受能力为98%,说明网络很正常且表现相当优秀。
  
  本故障属于软故障。可以由网络设备、应用软件、供电设备、外来干扰等故障引起。由于故障时检查过本地网络,登录服务器和进行Ping测试也是正常的,所以可基本判定集线器下挂网段是正常的。为了定位网络故障,在某个选定的远端子交易网络处和网管中心同时用F683网络测试仪双向发送流量作通道性能测试和故障监测,并作ICMP Ping连续测试和ICMP监测。为便于观察和比较,流量发送的帧长都设定为100字节,流量总和约30%(各占15%约10K左右)。
  
  在21:30故障如期出现。ICMP Ping测试出现断层,立即打开交换机和路由器的工作表,记录的流量等数据出现停顿或断续,并显示出现FCS帧错误。从远端打开相应工作表的结果是:路由器接转流量为17%,交换机接转流量为2%,ICMP Ping断层损失90%。ICMP监测显示不可达97%
  左右。从中心打开路由器和交换机工作表Mibs,接转流量均为0.5%~0.9%。这表明远端数据可以顺利到达路由器但不能在交换机端口顺利进行交换。最后用F43电源谐波测试仪测试UPS电源参数,验证UPS电源合格。可以判定确实是交换机的问题。由于网管中心没有备用的交换机,已知原交换机供应商已经停产该型号产品,所以只能考虑更换新型交换机。为了应付明天开市,试着确定一个好的代用端口,这样可以将服务器网段临时连接入网,防止明日开市遇到不测事件发生。
  
  查看交换机与路由器一侧的连接端口,发现工作表是正常的。因此只需要代换与服务器连接的端口即可,询问网管工程师上次故障时曾经更换过的是那个端口,答曰第4插槽上的空闲端口都试过。改用第5插槽上仅剩下的一个端口试验连接,网络恢复正常。由于故障时隐时现,故怀疑第4插槽存在软故障。重新将端口还原为第4插槽,故障已经消失。为重复故障现象,试着用改锥木柄敲击第4插槽,故障出现,再次连续敲击,则故障时隐时现。取下第4插槽的电路板观察,发现插针有较厚的氧化层(黑色氧化物)。用0000#细砂纸打磨插针并用酒精清洗,重新安装好电路板,故障彻底消除,并且不再随着敲击电路板而时隐时现。为保险起见,顺便检查其它7个插槽的电路板,插针均没有黑色氧化痕迹,证明只有4号插槽的插针在生产时使用了一组不合格的接插元件。交换机应属于不合格产品。暂时确定用第5号插槽的空余端口作代用端口,并要求网络不停机持续运行直到第二天休市为止,进行连续观察。
  
  
  [诊断评点]网络故障分硬件故障和软件故障,有时是软硬件相结合的故障。某些情况下从网络表现出的故障现象不能立即确定是那一类故障。本故障是由硬件设备接触不良引起的故障,原因是计算中心用作分隔网段的交换机其第4插槽的插针接触不良,使得与交换机第4插槽有关的接口工作都不太正常,出现断续和停顿。设备在刚启动的一段时间内,机器的元器件温度较低,工作正常,随着元器件温度的升高,器件受热膨胀,出现接触不良的故障,所以每天开市后的一段时间网络一般都不出问题。多次重复这一过程故障现象就会由较低频率的时隐时现转为较高频率的时隐时现,故障每此持续时间也会延长,最终可能会演变为持续的硬故障现象

文章转载地址:http://cisco.chinaitlab.com/trouble/275.html

0
相关文章