都是灰尘惹的祸
最近,应朋友的要求,笔者帮助解决了一例网络故障,这里愿将其中的心得与大家共享。
故障点软硬件环境:Campaq Proliant 3000服务器,Netware4.11 操作平台,无盘工作站(兼容机),D_Link220 网卡, 5个24口集线器向上级连至Cisco1924交换机的5个端口,有若干工作站直接连至交换机。
故障现象如下:最初是在工作站上观察到程序执行时偶尔有等待现象,后来愈来愈严重,等待时间从刚开始的几秒钟发展到后来好几分钟,网络服务速度变得非常慢,直至几乎不运行,各个工作站请求无法得到响应,网络陷入瘫痪。
据用户反映这种情况几乎每天都会发生,最多时一天发生5次,而且往往发生在工作最繁忙的时候,严重影响工作。由于找不到原因,每次的临时解决方法只能是关闭各个工作站,将服务器DOWN后,重新加载。
处理过程
到达故障点没多久,老毛病就犯了。观察各个集线器和交换机的指示灯,闪烁不停,可以肯定网络数据流量很大,查看服务器CPU的利用率为97%,非常高。在保持连接的情况下,尝试着将用户从服务器上逐个删除,当删到其中一个用户时,服务器没有响应,无法继续操作。虽说该网络使用无盘工作站,感染病毒的可能性不大,但本着先易后难的原则,手工断开所有工作站的物理连接,重启服务器后,单独接入笔记本电脑进行查杀毒操作,无功而返。
在交换机上接入一台借来的网络测试仪FLUKE 683 进行测试,结果基本正常。通知所有用户恢复工作,大约40分钟后故障重现,此时测试仪测试结果如下:网络平均流量75~94%,明显偏高许多。碰撞率为12.3%~14.2%,广播56%~89%,错误 5%~7%。一般来讲网络的正常流量在0.7%~8%之间波动,显然是大量的非法数据帧占据了大量的带宽,测试仪显示非法数据帧主要是广播帧,为了查清其来源,启动测试仪的“Error Statistic”功能,结果显示,错误类型为超长帧、帧不全、FCS帧等,并显示错误来源是一台MAC地址为0050BAA7493F的工作站。通过F683的“Top Sender”功能测试,显示广播帧来源也是该工作站。
由于该网络建网较早,没有建立完整的网络档案,无法得知该工作站的物理位置,只能先逐个断开集线器的连接,再在该扩展网段通过人工逐个查找到该台工作站后,将其关闭。几分钟后,网络恢复正常。为确认是否该工作站的问题,重开此机器加入网络服务,约20分钟后网络速度变慢,应用程序响应明显有滞后感,测试仪显示出现较多的非法帧。再次关闭该工作站片刻后,测试仪显示网络参数恢复正常。至此,确认网络故障是由该工作站引起的。
据该工作站用户反映,该点速度较早以前就比其他机器慢,因为影响很小,就没有告知网管员。检查该工作站,发现机器内灰尘很多,几乎都看不出板卡的原样,尤其是网卡。由于网卡边上留有一个机箱挡板空位,使之成为机箱的进风口,时间长了就在网卡上附着厚厚的一层灰尘。将机箱内的灰尘彻底清理干净,网卡上有个别地方清理不干净,索性换了一块,加电测试约1.5个小时,网络基本正常。
至此,维护工作完成。
故障分析:灰尘大量附着在网卡上,加之近来空气湿度较大,造成网卡表面各焊点之间的电阻发生变化,由于工作站的板卡工作在低电压,电阻的细小变化就有可能引起故障,而且是不好判断的软故障。本例中,可能是由于开关工作站的电源时对机箱有较大震动,使网卡表面的某几点之间的灰尘电阻由临界状态恢复到正常,但机箱内风扇使内外空气对流,灰尘又改变了该点电阻,导致故障的发生,使网卡发送大量的广播帧。而广播帧对以太网络影响最大的,它可以穿过网络中的网桥、集线器和交换机,形成“广播风暴”,占用了整个网段上设备通道的带宽,使得有用的数据帧无法传输。这样,无论是否处于接收/发送状态的站点也会因为接收大量的广播帧导致频繁向宿主申请中断,使CPU达到了很高的资源利用率,而自己的应用程序却无法得到处理。
个人建议
建议网管员应当定期清理工作站的灰尘,尽量保持工作环境的清洁。本例中,由于网管员没有建立较完整的网络档案,加之工作站位置分散,致使历时近7个小时的维护工作有一半时间用在了查找具体的工作站上,建议网管员必须建立完整的网络档案,如MAC地址和物理位置的对应表,如果是TCP/IP网络,还需有IP地址的对应表,每次维修都要有记录,如更换网卡则须修改MAC地址对应表等,最好还要有网络日志,便于日常维护和查找故障。另外,各工作站用户如果发现本机异常,最好马上向网管中心反映,由网管员进行判别处理,将故障消灭于萌芽。
事后随访:用户反映网络运行良好,并已开始清理工作,正在建立相应的网络档案。
文章转载地址:http://www.365master.com/kt_article_show.php?article_id=1180&categ_code=10151002