二、故障处理
如果产生了故障,NetGain是如何处理相关一大堆的事情的呢?
首先,故障产生后第一件事情就是产生报警。市面上其他网络管理类产品同样也是这样处理,这是毫无疑问的。NetGain的优势在于,它可以过滤报警、合并报警和进行相关的一些分析。
报警(报警) |
网络管理员们经常很头大的事情就是,看到一大堆的报警在闪来闪去,却不知道如何下手。报警分为很多种,同一设备的报警、同一类型的报警、同一故障引发的报警等等。当乱了头绪,不知道那些报警是最紧急的,哪些报警是直接关系到业务的时候,业务必然会受到影响。邮件发不出去了、网络断掉了、数据库受损了、服务器瘫痪了……
合并规则(点击看大图) |
首先,我们要将同一设备的相同告警合并压缩成一个,这样报警界面就不会看起来那么烦乱不会引起告警风暴。在一条告警内的详细信息中就可以看到相关告警发生的次数和时间。
过虑告警(点击看大图) |
其次,排除不需要关心的告警信息。用户故障管理系统的告警过滤功能是通过预先定义过滤规则的,这样就可以使不需要被关心的告警信息被屏蔽掉,使管理员可以集中精力在重要告警事件的监视和处理上。
映射规则(点击看大图) |
映射规则分为两种。第一种:将内部采集器获取得各种原始信息转换为同一标准格式的映射,原始数据信息会记录在告警的附加信息中。第二种:将具体告警问题的描述映射卫人性化的业务语言方便查看,也可以设置告警的紧急情况。这样网络管理员处理故障的轻重缓急就可以根据业务的重要性来分配。
相关性规则(点击看大图) |
最后则是相关性分析。网络环境中来自不同信息源(网络设备、主机系统、应用软件)的告警信息必然是相互依赖不可分割的。通常由于网络端口不通造成服务器无法通讯,业务无法正常运转等连锁反映。如果不将根源去除的话,就有如去病没有根治一样。如果在这种情况下将IT分为不同层次分别管理则管理员会看到来自不同网管软件的大量告警,短时间之内无法确定真正的故障根源在哪里。所以相关性分析很重要,它将依赖于同一故障的告警归纳为一条根源告警,点击根源告警则可以看到相应的告警。