摘要:该文从当前IT系统架构特点入手,分析了传统监控架构存在的问题后,提出了云监控的技术和理念,在分析该方案的优点后,给出了该监控方案在某公司大型信息系统实施情况,最后认为该系统必将在大型信息系统运维中推广采用。
关键词:云计算、监控
1 概述
随着社会发展,带宽的增加和设备成本的降低以及虚拟化技术的普及,目前国内外的大型企业、政府机构的IT系统架构都发生了变化。
- ? 设备虚拟化:云计算可以把服务器和资源有效整合,将CPU、内存、磁盘等资源虚拟化,某个IP地址后面跟随的只是一个虚拟机,而不像原来代表的是一台真实的机器。通过虚拟化对资源进行整合,提高了设备的使用效率,但同时在不增加设备的情况下,操作系统也会越来越多,管理任务量和复杂度也会增加。
- ? 信息系统设计和部署更加抽象:由于通过云计算将负载均摊、压力分散,系统设计人员不用过分关心业务部署具体位置、单台设备负载是否过高,能否承受业务压力这些问题,而是把注意力放在如何设计更能满足用户需求、可用性上。
- ? 信息系统的规模不断增大:随着信息技术的不断发展和应用,信息系统在政府、企业使用的深度和广度也在不断增大,这也就造成信息系统的规模不断扩大,系统的用户规模可能达到十万,百万,系统部署的设备超过万台。
- ? 企业及政府专网数量、规模不断增大:随着信息化的不断深入,企业即政府建设了很多大型集中信息系统,为了保证数据稳定、可靠、安全的传输,国内一些部委、大型企业都在建立和扩大内部专网,范围从省级扩展到全国。
- ? 监控集中、管理分层:为了保证IT系统的正常运行,特别是在整个广域网的正常运行,监控是必不可少的,由于地方的技术力量有限,监控中心一般放在总部,总部集中监测性能、解决重大故障,地方一线工程师主要是处理一些简单问题。
IT系统规模越来越大,系统架构越来越复杂、使用范围越来大,对IT系统的可靠性就要求越高,硬件、软件、网络任何故障运维人员在第一时间就要掌握以便进行快速处理,降低系统瘫痪的可能性,好的监控就成为运维的首要条件
2 传统监测架构
国际上大规模网络监测的主要厂商有HP、IBM、CA、BMC。它们的产品都是非常成熟的,有几十年历史了。
最开始网络规模不大的时候,都是一套网管系统安装在一台大型机上,监控所有服务器、网络设备、应用,目前所有小型网管软件还是这套监测架构。
随着网络规模的扩大,一台计算机的计算容量有限,大型网管系统一般都采用二级架构,在每个地方IT中心部署一套监控软件,在总部部署一套管理端,地方中心的监控软件将配置信息和一些重要的报警信息同步到总部管理端。

▲
这种架构有一些明显缺点:首先是管理复杂,监控软件部署很多套,每个地方监控中心都需要有监控软件维护工程师对监控软件进行维护,由于培训、支持很难到位,人员变动等多种原因造成地方维护工程师对软件不会有很深入的了解,产品使用困难,因此产品使用不理想的情况很多。
其次是容易产生单点故障,每个地方中心部署一套监控软件,当监控软件本身出现故障时,该地方的系统就没有监控了,故障也无从发现。特别是监控软件属于基础维护软件,在日常运维工作中,如果没有报警产生,网管人员也不会特别注意没有故障报警的原因,到底是因为监控软件本身出现故障无法监测呢,还是系统工作正常没有报警,只有当故障发生后才发现原来网络监控软件出现故障,已经无法完成监测任务了。
再次是架构复杂,当下级监测端的被监测设备发生变化,被增加、删除修改后,都需要将新的配置同步到上层管理端,同步过程比较复杂,也很难做到实时同步,造成上层管理端和下层监测端数据不一致,容易导致错误。
最后是扩展性差,资源分配不均,随着IT系统规模的扩大,当监测端的监测容量满足不了需求的时候,需要重新安装一套监测端,包括数据库、报警等多种应用,还需要同步到上层管理端,非常复杂。而且不同地方的IT资源数量不同,会造成某些地区监控软件压力非常大,而另一个地方监控软件的资源闲置。