嫌疑初现:VLAN存在环路
根据以前我们对于VLAN的理解,每个VLAN都是一个独立的广播域,可以有效防止VLAN之间的互相影响,但是这次Q客户的专网也反映有频繁的丢包发生,他们的网络出现病毒的机率要少的多,难道一个VLAN发生故障,会影响另外一个VLAN?带着这个疑问,我们咨询了华为公司交换机方面的技术人员,得到华为交换机有如下特性:
当系统发现Trunk或Hybrid端口上某个VLAN中的端口被环回时,则将该Trunk或Hybrid端口处于受控工作状态,同时删除该端口对应的MAC地址表项。
根据华为工程师的描述,我们登录到交换机上,查看华为3552交换机(即位于济宁的核心交换机)上查看日志文件,果然发现了大量的告警信息,如下所示:
%Jul 21 11:11:38 2007 ZXJF_3552 DRVNI/5/LOOP BACK:
Loopback does exist on Ethernet0/2 vlan 114, please check it
%Jul 21 11:12:09 2007 ZXJF_3552 DRVNI/5/LOOP BACK:
Loopback does exist on Ethernet0/2 vlan 114, please check it
这就明确的告诉我们,是泗水上互联网的那个VLAN存在环路,并在济宁的第2个网口(即连接东环的那个网口)上检测到该VLAN上有环路的存在,而且据我们对华为交换机的观察,当检测到环路存在时,TRUNK端口会断一下,而这个端口就是位于济宁3552交换机的2口,也就是连接东环的那个端口,这个端口上包括东环上所有的业务,当这个端口断一下的时侯,整个东环的所有业务也都会跟着断一下,这也就是所有的用户都会感觉到丢包的原因了。
接着我们又登录到泗水的交换机上,也发现类似的告警:
%Jul 22 15:43:56 2007 sishui-3528 DRV_NI/5/LOOP BACK:
Loopback does exist on port 24 vlan 114, please check it
%Jul 22 15:45:59 2007 sishui-3528 DRV_NI/5/LOOP BACK:
Loopback does exist on port 24 vlan 114, please check it
这又明白无误的告诉我们是泗水交换机的第24口存在环路,下面就是我们在泗水查找故障点的过程。