网络通信 频道

“污染”减速之二

上篇文章讲到网络链路的实际速度和电缆认证的速度可能是不一致的,其中的一条重要原因就是链路中存在干扰信号。干扰信号可以是电磁干扰EMC,如射频干扰、动力电源干扰、接地回路问题等原因引起。系统接地回路不良引起的干扰在网络系统中不在少数。一个优秀的网络工程需要在竣工验收中进行弱电系统接地回路的严格检验。
某证券公司,上午9:45,大户室中的一群声称遭受巨额无端损失的愤怒的股民们聚集在营业部计算中心的机房门前,质问为什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,且经常中断,根本无法进行交易。扬言如果不立即恢复交易,将砸掉证券交易所的计算机。交易大厅的散户们也开始向机房云集,如果不及时处理,情绪激动的股民们很可能真的会将营业部计算中心的网络设备砸个稀巴烂。该网络的用户均为10M以太网链路,用户数为730个。交易系统从卫星上接收通过广播方式传输来的行情数据,并将股民的交易信息回传给交易中心。从卫星接收机的监测口观察,接收到的数据完全正常,故网管人员初步判定是证券公司的营业网络系统有问题。其实,这个故障现象两个月前就已经开始出现,当时就有传输数据出错的现象出现,有时行情的数据更新出现空白,有时数据更新速度偶尔会变慢,有时还会出现数据更新的断续现象。虽然做过详细的检查,并用网管系统和协议分析仪进行监测和分析,但因这种“症状”并不连续出现,且对网络的速度和股民的交易基本没有影响,故一直没有查找到真正的故障原因。网管人员一直心存侥幸,曾经试着启用备用的服务器和更换部分交换机、集线器等,但都没有解决问题。前天参加了“第二轮证券系统Y2K统一认证测试”,顺利通过。利用剩余时间网管人员对系统进行了检查,并对部分硬件设备进行了检测和维护。之后恢复系统,进行联网检查。网络表现正常。不料今天开市就出现严重问题。
用网络测试仪F683反接入网络任一端口,监测网络30秒,观察到对口网络流量为81%。监测其它端口和部分链路,发现也在81%左右(网管报告对应的端口为0.2%左右),错误帧97.6%。错误类型为Ghosts(占93%)、FCS错误(又称CRC错误)和Jabber,即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。停止服务器和用户交易,监测的数据基本没有变化,说明错误的数据帧来源与应用或网络设备基本无关。怀疑是某个网络成员“捣乱”攻击网络的可能性应该不大,因为不会有如此均匀和数量巨大的错误帧,否则因为交换机的关系会将其拒之门外。此类症状一般以电磁干扰和接地回路方面的问题居多,干扰的通道不通过网络链路通道进入,而是从接地回路的通道串入到网络设备的每个端口。为了确定干扰源的准确位置,将大部分与工作站相连的集线器组电源关断,服务器继续工作,观察错误率降为87%,仍然很高。重新打开集线器组电源,用F43电源谐波测试仪观察,发现谐波含量严重超标(最高达1970mV)。该网络用一台大型UPS电源给所有网络设备供电,用电源谐波分析仪测试UPS输入电源谐波,约为输出电源谐波含量的30%,明显低于输出端的指标,断定为电源“内谐波”含量超标。启动小型备用UPS顶替部分网络设备尤其是服务器等主要设备的供电电源,网络立刻恢复正常工作(为减少负荷,故采用网络设备分批轮换接入的方法)。不过,继续用网络测试仪观测网络,其结果仍显示有错误存在,错误率(幻象干扰)下降为1.3%。再次关断集线器组和交换机等网络设备的电源,类型为“Ghosts”(幻象干扰)的错误率下降为0.8%,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。分段检查主数据通道的设备和零部件,当摇动卫星接收机的数据输出电缆时,发现幻象干扰时有时无。拔下电缆则干扰消失。网管人员据此回忆前日维护机器时曾动过该电缆,可能由此造成连接不良或芯线与屏蔽层“似接非接”。为使股民能继续交易,稳定其情绪,更换电缆后又将原UPS启动继续工作提供服务。收市后再更换大型UPS,故障彻底排除。
本例故障的原因有二,一是UPS对电源的净化能力下降,网络外谐波和内谐波容易从电源系统串入网络系统,其它干扰信号也可以藉此进入,为重大故障的发生提供了“基础”。但本例只是由累积的内谐波超标还不足以引发致命问题。二是接地回路问题,给大量的内谐波串入网络提供了通道。内谐波是指从电源净化设备的输出端比如UPS的输出端测得的谐波功率,由各种用电设备产生(网络设备绝大多数都采用开关电源,本身就是一个较大的谐波源)。大量的内谐波功率叠加后从卫星接收机数据输出电缆串入交易网络,一方面以“幻象干扰”的形式侵蚀网络带宽(此时网络测试仪监测到的错误类型即为Ghosts),当以太网的网络总流量高于80%时,会导致绝大多数的网络瘫痪;另一方面,串入的内谐波将干扰正常数据传输(与正常的卫星广播数据叠加,表现为FCS帧错误和少量长帧),使卫星接收机接收到的数据出错,显示屏出现大片空白或不能实时更新数据。本故障为累积故障,两个月前因UPS性能下降就开始出现少量干扰超标的现象,不过这没有引起网管人员的足够重视。前天维护设备后又增加了电缆接地回路的干扰问题。但因当时未将卫星接收机连入网络,网管人员仅检查了网络部分的工作状况,所以此时的网络表现肯定是正常的。直到今天临近股市开市,仅当接通卫星广播数据的输入通道时,干扰条件全部“具备”,问题才爆发出来。此时内谐波干扰信号大举入侵网络,几乎造成网络瘫痪。
关断集线器组电源,内谐波总功率下降,干扰信号强度减弱,错误率自然有所下降。更换UPS电源后,错误率大幅下降(理论上应降为零)。但因接地回路问题使50Hz电源及其高次谐波感应信号仍能进入网络形成较小数量的错误帧。需要注意的一点是,一般人在更换UPS后看到网络恢复正常工作即认为故障已经排除,因此很容易忽视仪器监测指示仍存在的少量错误(1.3%),这可能使“接地回路问题”这一重大故障隐患得以长期存在下去。
电源谐波功率含量和网络错误率需要定期测试,当发现错误帧时一定不要掉以轻心。另外,一路电源能带动的工作站建议不要超过30台,否则应象划分网段那样重新划定供电区域,以免内谐波功率累积过大,超过设备的容许范围。如果您的网络可靠性要求很高,或者您的网络对您来说非常重要,那么建议您将主要的网络设备如服务器、路由器等,在网络规划设计时就选择由单独的UPS供电。
尹工专栏
尹岗简介:1996~1998:在DTC数据通信北京公司负责数据图象和全数字有线电视传输工程;1998~2002:在福禄克网络公司上海办事处负责计算机网络测试和性能评估。

文章转载地址:http://www.365master.com/kt_article_show.php?article_id=937&categ_code=10151002

0
相关文章