网络通信 频道

游龙:当务之急还是提升IT基础运维实力

  数据监测和警报是做好IT管理的第一步

  赵琛宇指出,IT运维管理系统之说,来源于ITTL,来源与CMDB——核心配置管理数据库。CMDB的构建,必须依赖于基层的管理力度,必须把所有的网络设备、服务器、所有PC的运行状态,都监控齐全后,才能构建CMDB;若没齐全,就无法把一个故障流程弄成一个ITIL。而ITIL从V1.0到V2.0、3.0,从一大厚本儿逐步到一薄本儿,再次证明它只是一个理论,是一个概念,它只能指导客户要达到一个什么效果,而不能告诉客户如何去做。

  不可否认,ITIL确实是个好东西,但一定要结合实际。采用基于ITIL的系统,国内国外都有很多案例,失败的也很多。造成失败的原因主要有两个:一是原有架构不适合变更;二是管理的力度达不到,各环节协调不上来。另外,客户软件的使用习惯也是各不相同,是导致失败的原因之一;而软件本身,若底层并不是完全成熟,不能构建CMDB,也会造成失败。

  现在国内ITIL是一个初步培育期和探索期,并不成熟。国外也是从这个阶段过来,国外也不是立马就上一个体系架构,它都需要一个过程。游龙科技建议先上一套管理思想,一个可执行的流程和思想,它是非电子化而是纸质化。用户可以先找一家咨询公司,将纸质化的管理思想走几遍,各环节都认可都磨合好了,再选择一个适用的ITSM(IT服务管理)。

  赵琛宇反复强调,IT管理,其本质在于管理学,而管理学首要要义是:无法管理不能监测的数据。因此,首先,要采集数据;其次进行数据挖掘和展现。“有了完善的测量数据,才能把IT管理做到最好。”赵琛宇说:“游龙科技苦练内功,并不急于尝试覆盖性功能,而是首先脚踏实地帮助客户解决好IT管理的第一步——数据监测和警报。我们的目标是,将监测值采集和警报管理做到业内最精准。”

  据介绍,在采集监测数据方面,游龙科技使用了外围的模拟用户操作方式。比如,模拟网站登陆者登陆网站,从网站提取性能数据,进行比对和校验。从工作方式来讲,ECC不会对客户服务器造成压力,它从客户用途的角度,来体验它的业务系统是否够快。比如刚才提到的网站性能监测,大概用几秒钟,就会把数据加载下来。若某网站从去年8月到今年6月,平均一个页面的打开速度是1.2秒,那么ECC会把1.2秒作为报警的基线,超过1.2秒的延迟就会进行告警提示。

  而对于用户来讲,他们需要监测什么、监测多少性能指标,这些完全可以做到订制化。比如一般中小型企业,或者中型企业,它的服务器不会很多,监测指标并不需要太多,毕竟像移动梦网那样的全国性项目并不多。

  具体来讲,游龙科技所追求的数据监测工作主要体现在如下5个方面:

  1.基于监测,不断提高报警的准确度。这一点非常重要,漏报、误报都是客户无法忍受的。赵琛宇举了一个银行的例子:曾经有一位ECC的银行用户,凌晨三点连续收到三条短信报警,因为核心网断了。虽然这种情况很不可思议,因为银行系统一般都会做容灾备份、双机热备等预备性工作,但是千分之一机率的故障,也还是出现了。一旦出现这种情况,报警越快则越有助于快速解决问题。

  2.解决误报问题。游龙科技在警报误报上做了很多改进。比如,一个网络系统,从监测机主机到被监测主机之间,会经由很多路由器、交换机。一个网络设备的故障,会造成一片网络主机的中断,会导致很多业务系统的中断。这个时候是报警网络设备故障,还是报警服务器系统崩溃?SiteView ECC会追根溯源,自动、智能进行准确报警,快速定位故障根源,节省故障排查时间。

  3.从管理角色来讲,SiteView ECC把故障分为两种:一种故障报给系统操作人员,一种故障报给领导和管理人员。从系统用途来讲,系统故障会直接报给相关的负责人,实现报警信息的准确传达。

  4.SiteView ECC也很注意一些报警的细节处理。比如,网络出现短暂的异常,瞬间异常被抓取到。这时候警告还未确定,监测器会立刻加大监测力度,在下一次数据采集中重点进行监测,以便确定是否告警。因为在这种快速监测情况下,难免会出现抖动状态。IT运维厂商必须解决各种漏报误报问题,不然就会演变为IT版“狼来了”的故事。用户会逐渐放松警惕,一旦真有问题发生,不能得到及时关注和处理,就为时已晚。

  5.为了提高数据的价值,游龙也在不断改进、不断提高报表的功能。不同的客户有不同的需求,为此游龙提供给用户自定义报表功能,从管理者角度、一线运维人员角度等不同角度,来覆盖客户所有需求。同时,用户可以根据自身需求进行报表个性化定制,用户也可以通过EXCEL的公式进行报表直接调用。其中,有一些公式是SiteView ECC自有的公式,输入公式即可直接调用、展现。

0
相关文章