“携程网这次应用的新意在哪里呢?我们在电信级用户网络的管理已经做得非常好了,而携程网有一千多个节点,可以称得上是一个电信行业的级别。这也就是此次的亮点所在,因为在这次应用中,我们ECC(综合系统管理,Enterprise Control Center)产品在稳定性和功能性方面都做到了一个很大的提升。”游龙科技总裁兼首席执行官张泽军如是说。
确实是,提及网络监测与管理,大规模并发一直是一个颇有挑战性的命题。无论是近年来兴起的ITIL理念还是BSM理念,虽然在系统架构上有所改进,但都对大规模并发这个命题没有太多突破。历经近年来用户市场的磨练,近日携程网在游龙科技ECC平台的运行下,已然在其大规模网络的监测与管理方面收获了满意的结果。这也不得不令业界为之叹服。
那么,游龙ECC产品及其在携程网的应用中是如何表现其突破性的亮点呢?
需求呈现大规模特性
据了解,携程网总部位于上海,有一个很大的办公楼,数据中心也在大楼里面,租用的是电信和网通的专线。其后台的IT系统覆盖了所有的业务系统,既有网站也有很大的呼叫中心,共有接近一千台服务器、二三百台设备。另外,携程网内部运营着一个庞大的IT系统,系统业务间的关联性也非常大,对可靠性和可用性要求非常高。
“他们每天几乎要接到12万次电话,包括订票和咨询的电话,平均每个小时有七八千到一万个电话,这些对业务系统要求非常高,也就是说不能有网络中断的情况。”张泽军举了个例子说:“当然这些都是我们从2007年开始就和携程网沟通的情况。”
据张泽军介绍,在携程网早期建设中,核心就是对IT基础架构进行很全面的监测,包括业务系统、应用系统、服务器、主机、呼叫中心、有情况实时告警等,这些都对管理平台提出了很高的要求。2004年的时候,携程网就曾以小规模的方式考察游龙科技的ECC系统,考察了两三年后才大规模地铺开,其中监测规模达到了几千个指标,检测量非常大,用到了游龙科技级别较高的分布式架构,从而实现了在多台服务器上监测几千个运维指标。当采集到监测数据便做数据展示,同时提供很丰富的数据展示方式,包括树形结构、拓扑图等。尤其是在监测后做出告警,这一点也是携程网应用中非常核心的内容。具体来讲,告警方式通过系统EMAIL发给管理员,而在携程网内部则可以转为手机短信报警,根据报警实施定位,在故障影响到终端用户之前,把故障进行解决。
上述过程中实际上提出了一个很核心的功能需求——大规模监测自动化。
此外,携程有一百人左右的人员规模,需要有很完善的权限管理。每个人负责他自己的业务,只关注他自己关注的部门,所以需要提供很完善的权限管理,以便保证了系统的安全性。
ECC首次得到充分的应用
“与其他项目相比,携程网这个项目对ECC的使用更加成熟。”张泽军表示:“在中国,像携程网这么一个庞大的运维团队并真正把运维系统的全部功能应用起来的案例,其实很少的。”
据了解,携程网将游龙ECC的功能应用得非常到位,包括如何适应庞大的用户网络体系、如何适应那么多人同时使用、以及如何更加自动化、更加智能等。
比如携程网每年的业务有30%左右的增长,而且每增加一个服务器进来不需要重新做配置,因为被监测对象可以自动被添加进来,同时报警阀值、报表等都可以自动设置。相反,如果一台服务器添加进来的时候还要进行复杂的设置,那就很容易导致运维平台和系统管理不对称。
再比如,自动设置阀值方面,要做到这一点运维后台就要加很多算法和逻辑处理,同时要设置很多规则。游龙的ECC平台就做了很多批量化处理,比如满足某些规则就可以进行批量化设置、某些参数可以就监测频率进行批量调整等。这些都是因为监测点一旦多起来的时候,批量调整可以一次性、快速实现某些关键功能。
此外,针对系统稳定性的要求,运维平台确实不能随意做任何调整。因为一旦做调整就需要进行层级审批,而用户的要求是电信级的,不能漏报、也不能误报,而且没有发生故障就不能报出故障。这虽然涉及到几千次的监测,但都要保证有一定准确率的报警,这在技术上确实需要很深层次的积累。游龙科技的ECC平台就在携程网的应用中实现了。
各项规模化运维效果非常显著
相比之前的开源网管,携程网选购了游龙ECC平台后,从可靠性、监测深度和广度、以及报表等多个方面,都体现出了非常充盈的优势。
据了解,ECC平台基于游龙科技自有的数据库,支持很大的并发量,同时专有的数据库既保证了对既有数据量的支撑,也保证了高效的查询和使用。就携程网的应用体系来说,其运维平台可谓是包罗万象,整个IT架构几乎包括了所有的IT组建,如防火墙、路由器、存储、交换机、大容量数据库、参数指标、业务系统、中间件等。因此,携程网作为ECC的监测对象无论从深度还是规模上都是级别很高的。
总体来说,ECC产品充分体现出了游龙科技在IT运维产品领域的成熟度,包括从前台到后台、从功能到性能的完整保障。“整体来说,我们ECC平台此次在携程网中的技术亮点就是:批量调整、批量配置;电信级的稳定性;监测的准确性及无误报/无漏报等。”张泽军总结说。