铁道部售票网12306“三天两宕” 脉山龙数据中心运维专家支招
继12月24日“因机房空调系统故障”停止售票数小时之后,12月26日上午铁道部12306订票网站再度瘫痪,直到傍晚6点钟左右才恢复正常,公告原因仍是“空调系统故障”。从事数据中心运维服务近10年的专家、脉山龙公司服务业务部总经理谢飞对此提出了专业的见解和建议,从数据中心运维角度为12306支招。
铁道部售票网(www.12306.cn)“三天两宕”,引发业界、媒体及网友质疑的同时,即将到来的春运购票高峰期更让不少旅客忧心忡忡。空调故障是导致售票网站瘫痪的罪魁祸首吗?为什么机房空调故障会导致网站售票系统无法正常运行呢?在现有技术架构下,如何能有效降低设备故障率,保障售票网站正常运行呢?从事数据中心运维服务近10年的专家脉山龙公司服务业务部总经理谢飞提出了专业的见解和建议,从数据中心运维角度为12306支招。
12306瘫痪原因解析:空调故障是造成系统瘫痪的重要因素
回顾12306历次停摆事件,网站技术架构及中标的相关服务方都成为被外界质疑的热点话题。数据中心运维整体服务商脉山龙公司服务业务部总经理谢飞认为,12306本质上与苏宁易购、京东商城、淘宝网等电商网站一样,对同时并发访问和下单的响应要求极高,但铁路售票系统需要处理大量车次、坐席、时间等查询任务,对服务器请求处理的能力要求非常之高。在现有技术架构下,铁道部为提高响应速度和购票体验,不断增加服务器等硬件设备和功耗无疑给既定的空调系统和动力系统带来沉重的负担,压缩了动力系统和制冷系统冗余空间,可能一台空调设备发生故障就会导致整个机房的温度上升,最终导致服务器过热而宕机。
谢飞表示,空调系统非常重要,数据中心内的服务器、存储、网络设备等硬件运行时产生大量的热量,对于制冷的要求非常之高。国标对于机房的温度要求一般在23±2度,一般的服务器如果进风口温度在40摄氏度以上,服务器就会因为热保护自动关机。如果机房温度超过30摄氏度就有可能导致部分热积聚区域的服务器宕机,机房温度在35摄氏度以上就可能有较多的服务器宕机,超过40摄氏度,将会有大部分的服务器宕机。一旦空调故障停机,机房内的温度会迅速升温,半个小时内机房温度就可达到50摄氏度以上,这时大部分服务器等设备都会因为过热而宕机,造成系统瘫痪。空调故障是造成系统瘫痪的一个很重要的因素。
专家支招:灾备是前提,运维管理是根本
数据中心常见故障如断电、空调故障、UPS 故障、网络接口线路松动等,空调故障可能只是造成12306宕机的一个原因,但一般数据中心都有备用空调、UPS 等设备,并轮流使用和定期保养,一旦遇到设备故障,可实现平滑无缝切换备用设备,不会影响系统正常运行。谢飞认为,12306这种支撑超大访问量的数据中心应该也配有备用空调,“空调故障导致系统停止运行,极大可能是运维技术团队对空调系统和数据中心的日常运维的缺位。”
同时,为保障业务的连续性,目前大部分企业的数据中心都设有灾备中心,通常采用双机热备、定时备份以及异地存储和备份的方式,尤其是金融行业已经开始引入虚拟化和云计算的新技术,形成“两地三中心”的备份模式,能确保数据的安全。谢飞建议,如果12306业务均集中在一个数据中心处理,安全系数非常低,一定要考虑建设备份中心,进行数据的实时传输和容灾备份,这是数据中心安全运行的前提。一旦主数据中心瘫痪,系统就可以实时切换到备份中心继续运行。
他还建议,数据中心运维团队应对监控报警系统进行测试和检查,一旦机房空调系统故障导致机房内温、湿度升高或设备出现温度告警等异常现象时,还应执行机房空调故障应急处理预案,将影响降到最低。
有着丰富经验的谢飞,作为脉山龙公司服务业务部负责人,目前掌管着包括金融、商业连锁、通信电子、政府等行业上千家企业机构的数据中心运维服务业务。以他多年的运维经验来看,备份和运维缺一不可,可以保障业务连续不中断,但是,“即使采取各个层次的容灾备份方式,建立了灾备中心,运维服务管理仍然是问题的根本所在,良好的运维服务管理能使数据中心保持健康状态,也只有服务管理才能防患未然、真正降低故障率。”谢飞提到本月中旬网传中行信用卡 IBM 大机宕机超过4小时的事件,他指出尽管大型机一般都很稳定,但发生宕机或故障后,未能及时切换灾备、快速恢复运行,还是跟系统监控检查、监控预警、日常的运营演习、灾备演习等日常运维存在很大关系。
建立在一系列标准运维流程基础上的数据中心运维服务管理,可以跟踪记录设备的动态历史运维数据,通过分析这些数据提供数据中心的健康状态,为用户的 IT 决策提供依据。“重视起服务的管理,12306可以实现数据中心各个子系统健康状况的可视化,在设备还没有出现故障之前,就已经及时进行了维修或更换,机房的可用性就能得到极大提升”,谢飞总结道,“T4的机房规划还需要T4的运营管理。”