网络通信 频道

BGP update报文导致的用户网段路由丢失

  【IT168厂商动态】一、背景

  组网: C6509--NE40E-X8--(传输)--NE20E-X6

  / | | | \

  server \ | | | / client

  C6509--NE40E-X8--(传输)—ASR1K。

  二、问题、事件描述

  1、组网说明:经过扩容更新后,组网为C6509与NE40E-X8运行OSPF&IBGP,NE40E-X8与NE20E-X6运行EBGP,NE20E-X6和ASR1K运行OSPF,用户同时连接NE20E-X6和ASR1K,网关在NE20上,用户需访问C6509下服务器资源

  2、现象:NE20E-X6多个接口下挂有多个网段,某日人为插拔某个端口再恢复后,该接口下网段用户无法访问服务器,客户自行重启NE20E-X6后业务恢复正常,要求定位原因。

  三、分析与对策

  人为插拔网线后下挂业务中断无法恢复,很可能是插拔后对应网段路由未通过EBGP向NE40E-X8宣告,导致NE40E-X8无法学到对应网段路由,用户无法访问server下资源。

  1、为定位问题,需要复现故障现象。由于是在网业务,不适合做插拔模拟,采用建子接口方式,并通过shutdown/undo shutdown人为模拟插拔网线,复现现象。现象复现后即可在不中断现网业务的情况下进行debug bgp分析。

  2、shutdown NE20E-X6子接口,在NE40E-X8侧debug bgp,可以收到NE20E-X6发的bgp update报文,且在一个报文中同时有对子接口网段的update和withdraw两个宣告消息。

  3、undo shutdown NE20E-X6子接口,在NE40E-X8侧debug bgp,可以收到NE20E-X6发的两个bgp update报文,第一个报文路由更新,第二个报文路由撤销,由于最终的效果是撤销,因此NE40E-X8无法学到对应网段路由,业务中断。

  4、找到原因后,可以找方法规避:在NE20E-X6上配置聚合后的黑洞路由,再在BGP中network发布,这样就可以屏蔽具体网段的路由变化了,这样也优化了配置。

  四、建议与讨论

  神码工程师对客户网络和业务进行综合评估,对出现的问题和隐患做了一定量的修正,防止再次出现类似人为或部署初期埋下的隐患和问题。另外,由此也提醒网络维护人员,在大规模组网环境下为了快速定位故障,需要使用分段的方法,将网络分解成一段一段分别检查,在按照分层法最终定位故障点,使用理论结合实际的有效方法,去解决网络中的突发和未知问题。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章