网络通信 频道

看清楚ARP 排除网络故障

最近,我单位碰到一个非常奇怪的问题,一台P4品牌电脑,内置英特尔网卡,一直以来用得挺好,浏览互联网,内网的通信都很正常。

 
突然有一天,发现这台计算机在浏览互联网时时通时断,ping互联网上的地址时,也是通一下,断一下,但ping内网时什么问题也没有,和内网的通信也非常正常,就是和互联网通信时有这种现象,非常令人费解。这台电脑的IP地址为192.168.24.55,防火墙的IP地址为192.168.24.7。

检查物理链路

我单位所有访问互联网的电脑都是通过Netscreen NS25防火墙来连接的,如果说是防火墙的问题,而其他的电脑访问互联网都挺正常,没有时通时断的现象。根据这台电脑ping的现象来看,问题似乎应该在下三层,而时通时断的现象好像是典型的物理层的问题,那么首先开始检查链路。

这台电脑是接在一台Cisco三层交换机的某一个端口上,防火墙也是接在这台三层交换机上,在三层交换机上启用了路由,配置上肯定没有问题。先检查电脑到交换机的网线,如果说这根网线有问题,那么这台电脑与内网的通信也应该有问题,通过对这根网线的测试证实没有问题。防火墙到交换机的跳线就更应该没有问题了,因为其他的电脑都没有问题。由此可以判断链路是没有问题的,网卡会有问题吗?肯定也不会,因为它跟内网的通信是正常的,所以网卡肯定也没有问题。那么就可以排除物理层的问题了。

模拟数据通信

再看网络层,这台电脑能够访问互联网,但并不是完全不行,只不过有丢包而已,似乎网络层也不应该有问题,那么所有问题似乎就集中在数据链路层了。数据链路层的问题会是哪里呢?思考了几天,毫无头绪,最后只好仔细的想一想网络通信的过程,看能不能找到问题。

假设这台电脑有一个数据包需要发送到互联网,那么首先它会检查目的地址与本机地址是否是在一个网络中,如果不在一个网络中,就会将数据包发送给默认网关,本案例中目的IP为互联网地址,所以肯定不在一个网络中,所以数据包会发送给默认网关。在这里默认网关为那台Cisco三层交换机,IP地址为192.168.24.10。这时192.168.24.55这台电脑会检查本机的ARP表,查找192.168.24.10所对应的MAC地址,如果在ARP表中没有发现相应的ARP表项,它就会发送一个ARP请求包,将它发送给网络中的所有设备来获得192.168.24.10的MAC地址。由于ARP请求包是以广播方式发送的,网络中的所有设备都会接收到这个包,然后传送给网络层检验。

当Cisco三层交换机接收到这个ARP请求时,就会检查本机的IP地址和ARP请求包中的目的IP地址是否相同,如果相同,交换机就会做出ARP应答,将它的MAC地址发送给源,也就是192.168.24.55这台电脑。这台电脑收到ARP应答包后,就会将交换机的IP地址192.168.24.10和MAC地址写入ARP表,然后将交换机的MAC地址作为目的MAC地址封装到数据包中,并将数据包发送到交换机。交换机在收到数据包后,就会检查目的IP是否在本网段中,发现不在本网段中,就会查找路由表,看看有没有到目的IP的路由条目,如果没有,就会将数据包发送给默认路由,在本案例中这台交换机的默认路由是那台IP为192.168.24.7的防火墙。所以交换机就会发送一个ARP广播,以获得防火墙的MAC地址。防火墙做出ARP应答后,交换机就会将防火墙的MAC地址作为目的MAC地址封装到数据包中,数据包就会发送到防火墙,然后防火墙就会又重复上述过程,将数据包发送给互联网上的目的地址。这一切过程都是正常的,没有什么问题。在电脑和交换机的ARP表中都能找到相应的ARP记录,用tracert命令跟踪路由也是正常的,那问题究竟在什么地方呢?看来还得继续分析。

过滤ARP表

在数据包到达了互联网上的目的地址之后,响应的数据包要返回到这台电脑,那么它也应该重复前面的过程。返回数据包先到达防火墙,在防火墙的ARP表中寻找目的IP地址所对应的MAC地址,如果没有,就会发送ARP请求,得到目的电脑的MAC地址,将电脑的IP地址和MAC地址写入防火墙的ARP表,封装后发送给这台电脑。这一切看起来都是正常的,但为什么会出现时通时断的现象呢?由这台电脑在内网都是正常的现象来判断,在三层交换机上应该是没有问题的,只是在访问互联网时才出现问题,最后决定从防火墙上开始检查。

Telnet上防火墙,检查防火墙配置,一切正常;检查端口,一切正常;检查路由表,也是一切正常。疑惑中,似乎不知该从哪里下手了。突然间,想起来为了防止内网用户盗用IP地址上网,在防火墙上做了IP地址和MAC地址的绑定的!对,检查检查ARP表。于是输入命令:get arp,显示一大串ARP表的信息,竟然全部是IP地址和MAC地址的静态绑定的信息,仅仅只有一条动态的,那是防火墙的下一跳的IP地址和下一跳的MAC地址的信息,就是没有192.168.24.55的ARP表项,难道是……ARP表的问题?似乎看到了一丝希望!

于是决定先清除几个静态绑定的ARP表项试试,先用unset arp命令一连清除了6条静态绑定的ARP表项,然后在那台电脑上ping互联网的地址,居然不丢包了!?困扰我几天的问题难道就这样解决了吗?我简直有点不敢相信,又让我的同事在这台电脑上面测试一下,登录QQ,浏览网页,收发邮件……,居然一切正常,再也没有原来时通时断的现象了!再Telnet到防火墙上,get arp一看,192.168.24.55那台电脑的ARP表项赫然在目。看来问题真的解决了!高兴之余坐下来再好好的想一想原因吧。

故障溯源

这台Netscreen NS 25的防火墙最多支持128个ARP表项,如果不进行静态绑定,ARP表项会不断地进行更新,超时的自动会删掉,所以不会出现ARP表项被占满的情况。而如果是静态绑定,那么它永远就不会被清除,永远会占据一个ARP表项,留给动态使用的ARP表项空间就会越来越少,直到全部占满,导致我所碰到的情况。那么既然如此,有朋友会问了,既然都占满了,其他的电脑就会完全不通,为什么会出现时通时断的现象呢?于是我将ARP表项数了一下,静态绑定的刚好达到127个,剩下一个给防火墙的下一跳的地址占用了,注意这个是动态的,当它的更新时间到了之后,就被删掉了,那台电脑就占用了这个表项,于是网络就通了,因为还有其它的电脑在不断地访问互联网,所以192.168.24.55的ARP表项一到达更新时间马上就会被防火墙的下一跳的地址所占用,这时网络就不通了。其实在这时,我单位的所有机器在访问互联网时都会出现时通时断的现象,只不过防火墙的下一跳的地址占用ARP表项的时间长,互联网中断的时间在大家能够忍受的范围内,都没有发觉罢了。因为防火墙的下一跳的地址占用ARP表项的时间长,192.168.24.55的ARP表项写不进ARP表,产生超时,所以它不通的时间就长一些,就出现时通时断的现象了。

 

转载地址:http://www.qqread.com/net-manage/j312834.html

0
相关文章