我们公司的技术人员在为某单位集成跨区域信息网时,由于在调测过程中对一台边缘路由器路由设置不当,而造成信息网网络交换机无法管理。这例网络故障的排错让我们的技术人员大伤脑筋。由于这个案例比较典型,而且其排错过程可供借鉴,因此写下来与大家分享。
1.信息网络结构
为了便于大家了解排错过程,笔者先对该单位的网络结构做一番介绍。该单位组建跨区域信息网,实现该单位所属部门内部联网,采用一条100Mb/s专线通过防火墙实现宽带网络接人。在进行网络集成时,为便于调试技术人员在A地信息网边缘节点通过五类线和宽带网络实现物理联接,两个网络之间的路由不进行互通,只在互联地址(192.168.17.56/30)实现对信息网所有交换机的管理该单位信息网。信息网IP地址分配原则如下:交换机管理和互联IP地址采用192.168.16.0/22网段,用户接入网络IP地址采用10.18.0.0/15网段。
2.故障现象描述
该单位的技术人员在对所有二层交换机登录时发现,所有二层交换机管理地址都无法进行正常登录,速度明显变慢。技术人员在对交换机的管理地址采用PING命令测试时发现所有交换机均能正常PING通。在出现该情况后,技术人员对所有二层交换机进行了关电重启,所有交换机均恢复正常管理。但经过约半天时间后,所有交换机又出现无法正常管理的现象,经过多次重启测试后,仍无法解决该故障现象。
3.故障分析
鉴于以上故障现象,考虑到该故障是该网络普遍存在的现象,我们按以下方式进行了分析。
(1).首先,鉴于所有交换机均存在无法管理的现象,为保证故障定位的准确性,我们仍对一台交换机进行了更换;同时,将更换下来的交换机接至单独的网络环境,经过一段时间的观察后发现,接至单独网络的交换机可以正常管理,而新接至信息网络的交换机仍无法实现正常管理。根据以上现象,排除了交换机本身出现故障的可能性。
(2).在排除了交换机出现故障的可能性后,我们对全网的网络结构和网络状况进行了分析。考虑到所有的用户均能正常上网,我们将其中一台交换机的管理地址设置用户网段的地址(IP地址:10.18.9.2,网关地址:10.18.9.1),在经过一段时间的观察后发现,只有更换为用户网段(10.18.9.0网段)地址的交换机可以实现正常管理。
(3).针对以上现象进行分析后,我们认为可能是192.168.16.0/22网段的地址受到攻击所致。为便于对该故障现象进行分析,我们在该信息网络出口采用网络监听软件对出入该网络的数据包进行分析。考虑到出口的数据量较大,为便于分析问题,我们只对192.168.18.147、192.168.18.148、192.168.18.149、192.168.18.150、192.168.18.151、192.168.18.152和10.18.9.2等管理地址流入和流出的数据包进行监控。在对上行端口的数据包监听后发现,该端口上只有源地址为192.168.18.147、192.168.18.148、192.168.18.149、192.168.18.150、192.168.18.151、192.168.18.152网段的管理地址,而目的地址为合法地址的数据包,且源端口均为80端口。而管理地址为10.18.9.2的管理地址却无任何数据包流入和流出,这显然是一种有目的地针对192.168.18.O/16网段进行攻击的行为。根据上面的分析,我们可以看出交换机的源地址向防火墙之外的地址发送了数据包,而作为交换机本身是不可能直接向外发送数据包的。因而必定存在一个“源”触发交换机不断地发送数据包,从而极大地消耗了交换机的资源,而造成交换机无法管理。
(4).为进一步分析问题,我们针对一台管理地址为192.168.18.150的交换机(该交换机端口不接任何用户,以便于进行分析)的上行口进行数据包监测,在监测过程中发现流人和流出该上行口的数据包均为192.168.18.15O流向合法地址,以及合法地址流向192.168.18.150。通过以上分析,根据防火墙的特点(防火墙在采用地址转换后,源地址不可能为合法地址),我们可以判断,流人和流出交换机的数据包所经过的路径不一样,从而排除外网通过防火墙进行攻击的可能性。
(5).通过以上分析后,我们对网络结构再次进行了仔细的分析。为便于网络调测,在A地边缘节点有一端口联至宽带互联网的边缘路由器,仔细查看该路由器的配置和路由表,发现
192.168.18.0/23的静态路由设置错误,导致该段地址的路由都注入了该路由器,并通过路由到达信息网管理地址为192.168.18.0/23段的交换机。从宽带网上的攻击数据通过A地流向该信息网的交换机,交换机返回的数据又通过防火墙流向宽带互联网。
4.故障处理
基于上面的分析,处理故障就变得非常简单了。将宽带网络和信息网络的连接电缆断开,并对所有二层交换机重启后,所有交换机管理恢复正常,故障排除。
总结:通过对该故障的分析,可以看出,在配置网络过程中,一定要注意仔细考虑路由的配鼍和清晰了解整个网络的结构。同时,在出现网络攻击或网络上出现大量不正常数据包后.为排除故障点,必须在对IP协议了解的基础上,通过网络监听软件在网络出口处和攻击点对数据包进行监听,通过对网络结构和不正常数据包流向的仔细分析,判断故障点所在。