网络通信 频道

阿里基础网络故障的最大挑战竟然是这个

    【IT168 SACC现场报道】2017年10月20日,一年一度的中国系统架构师大会(SACC)再度盛装来袭。作为国内最负盛名的架构师盛会,SACC 2017云集了百余位国内外的优异专家,围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域进行思维碰撞和技术交流。

阿里基础网络故障的最大挑战竟然是这个
▲阿里巴巴高级技术专家何源

  在第三天的网络架构设计及优化实践(专场17),来自阿里巴巴高级技术专家何源先生以《阿里网络故障智能化治理的实践: 故障自动发现和恢复》为主题进行了精彩分享。

阿里基础网络故障的最大挑战竟然是这个
▲阿里巴巴网络故障处理理念示意图

  阿里巴巴基础网络架构支撑了淘宝、天猫、阿里巴巴、蚂蚁金服、咸鱼等业务,在全球部署示意图,具有体量大,型号多、架构多、结构复杂等挑战。何源表示,我们的网络故障处理采用了kafka等多种开源技术,遵循了设备信息收集、聚类分析、实时分析、故障扫描等方法

  随后,针对故障发现、日志处理、有效识别具体操作方法,然后针对每一类故障告警,生成一个对应自动化处理脚本,但并不能解决所有被动性网络故障,还需要通过主动性探测,主要是内网和运营商广域网故障检测,何源对于后者需求,采用了从全球IP地址库为每个国家(中国美国的每个省和州),每个运营商动态挑选5000个存活IP进行探测,每分钟千万级IP,其次构建网络质量基线,而非单纯的阀值进行告警。

  最后,何源也强调,阿里巴巴在网络故障处理方面还面临的挑战与其他互联网公司一样:缺人、缺人、缺人。。,有能力的童鞋可以砸简历过去啦!

阿里基础网络故障的最大挑战竟然是这个
▲更多信息尽在IT168现场报道专题 http://sacc.it168.com/topic2017/

0