一、故障描述
故障地点:
江苏省某中学校园网
故障现象:
严重网络阻塞,客户机之间相互ping时严重丢包,校园网用户访问互联网的速度非常慢,甚至不能访问。
故障详细描述:
整个校园网突然出现网络通讯中断,内部用户均不能正常访问互联网,在机房中进行ping包测试时发现,中心机房客户机对中心交换机管理地址的ping包响应时间较长且出现随机性丢包,主机房客户机对二级交换机通讯的通讯丢包情况更加严重。
二、故障详细分析
1.前期分析
初步判断引起问题的原因可能是:交换机ARP表更新问题
广播或路由环路故障
病毒攻击
需要进一步获取的信息:ARP信息
交换机负载
网络中传输的原始数据包
2.故障具体分析排查
开始实际具体排查工作:
1.在主机房的客户机和以下的客户机上分别使用“arp –a”命令查看ARP缓存信息,结果正常;
2.登录中心交换机查看各端口的流量,由于交换机反应速度较慢,操作超时,无法获得负载的实际流量;
3.使用科来网络分析系统5.0捕获并分析网络中传输的数据包,具体过程如下。
在中心交换机上做好端口镜像配置操作,并将分析用笔记本接到此端口上,启动科来网络分析系统5.0捕获分析网络的数据通讯,约2.5分钟后停止捕获并分析捕获到的数据包。
XX中学校园网的主机约为1000台,一般情况下,同时在线的有600台左右。在停止捕获后,我们在科来网络分析系统5.0主界面左边的节点浏览器中发现,内部网络(Private-Use Networks)同时在线的IP主机达到了6515台,如图1,这表示网络存在许多伪造的IP主机,网络中可能存在伪造IP地址攻击或自动扫描攻击。
选择连接视图,发现在约2.5分钟的时间内网络中共发起了3027个连接,且状态大多都是客户端请求同步,即三次握手的第一步,由TCP工作原理可知,TCP工作时首先通过三次握手发起连接,如果请求端向不存在的目的端发起了同步请求,由于不会收到目的端主机的确认回复,其状态将会一直处于请求同步直到超时断开,据此,我们现在更加断定校园网中存在自动扫描攻击。
详细查看图1的连接信息,发现这些连接大多都是由192.168.5.119主机发起,即连接的源地址是192.168.5.119。选中源地址是192.168.5.119的任意一个连接,单击鼠标右键,在弹出的右键菜单中选择“定位浏览器节点>>端点1 IP”,这时节点浏览器将自动定位到192.168.5.119主机。
(图1 网络中的TCP连接信息)
选择图表视图,并选中TCP连接子视图项,查看192.168.5.119主机的TCP连接情况,如图2所示。查看图2可知,192.168.5.119这台主机在约2.5分钟的时间内发起了2800个连接,且其中有2793个连接都是初始化连接,即同步连接,这表示192.168.5.119主机肯定存在自动扫描攻击。
(图2 192.168.2.119主机的TCP连接信息)
选择数据包视图查看192.168.5.119传输数据的原始解码信息,如图3。从图3可知,这些数据包的大小都是66字节,协议都是CIFS,源地址都是192.168.5.119,而目标地址则随机产生,目标端口都是445,且数据包的TCP标记位都将同步位置1,这说明192.168.5.119这台机器正在主动对网络中主机的TCP 445端口进行扫描攻击,原因可能是192.168.5.119主机感染病毒程序,或者是人为使用扫描软件进行攻击。
(图3 192.168.2.119主机的数据包解码信息)
找到问题的根源后,正准备对192.168.5.119主机进行隔离,这时因其它事情中断分析工作约10分钟左右。
继续工作,隔离192.168.5.119主机的同时再次将启动科来网络分析系统5.0捕获分析网络的数据通讯,约2.5分钟后停止捕获并分析捕获到的数据包。
分析捕获到的数据包,网络中又出现了3台与192.168.5.119相似情况的主机,且这些主机发起的同步连接数都大大超过192.168.5.119,图4所示的即是其中一台主机在约2.5分钟内的发起的连接数,其中同步连接达到了6431个。
通过这个情况,我们可以肯定192.168.5.119和新发现的三台主机都是感染了病毒,且该病毒会主动扫描网络中其它主机是否打开TCP 445端口,如果某主机打开该端口,就攻击并感染这台主机。如此循环,即引发了上述的网络故障。
(图4 192.168.4.34主机的TCP连接信息)
网管人员立即对新发现感染病毒的3台主机进行隔离,ping测试响应时间立刻变为1ms,网络通讯立刻恢复正常。
在分析中,我们还发现,192.168.101.57主机占用的流量较大,其通讯数据包的源端和目的端都使用UDP 6020端口,且与192.168.101.57通信的地址227.1.2.7是一个组播IP地址,签于此,我们推测192.168.101.57可能在使用在线视频点播之类的应用,并因此对网络资源造成了一定程度的耗费,其通讯数据包如图5所示。对于这种情况,网管人员也应对其进行检查,确定其合法性,以避免网络带宽被一些非关键业务所耗费。
(图5 192.168.101.57主机的通讯数据包信息)
在第一次和第二次捕获之间,相隔仅10分钟的时间,网络中就被新感染主机三台。由此我们可以想象,如果不使用网络检测分析软件捕获分析网络中传输的数据包,仅通过查看交换机的端口流量,或者使用单纯的流量软件,将很难找到问题的根源,这样网络中感染的主机会越来越多,最终将导致整个网络的全部瘫痪。
以上便是笔者使用科来网络分析系统5.0诊断该校园网故障的全过程,在网络出现速度慢、时断时续、不能访问时,网管人员均可使用这种方法对故障进行诊断排查。
文章转载地址:http://www.cnpaf.net/Class/OtherAnalysis/05121613275677270348.htm