【IT168 评论】随着行业的发展,业务系统越来越庞大,涉及的软硬件维护点越来越多,特别是数据中心内部,运维的复杂度和难度也越来越大,于此同时,随着去IOE的潮流和后IOE时代的架构特色,PC服务器、虚拟机和开源数据库等软硬件产品的比重上升,运维的内容和节点数量都有比较明显的变化。
俗话讲工欲善其事必先利其器,想要数据中心运维好,就得先做好相应的监控,那么大家都是使用的哪些监控软件呢?使用过程中有哪些难点?有哪些收获?为此我们在CU社区展开了激励的讨论,更多详情敬请关注(http://bbs.chinaunix.net/thread-4203552-1-1.html) 。
网友zongg表示:从工作以来,用过的监控系统有cacti,nagios,zabbix等,cacti是用snmp协议来取数据,通过rrdtool来储存和更新数据(存在rra下的文件里),并生成图。由此可见snmp和rrdtool是cacti的关键。 但是我们并不需要深入的了解rrdtool,和snmp ,我们是需要通过简单的配置就可以生成图像,我对于我们来说很方便(优点)。 rrdtool来处理数据效率高,多样性绘图,但是cacti监控的内容不多(缺点)。有一些插件还是不错的。我现在用的是monitor,mactrack,weathermap. 我们现在主要是用cacti来监控交换机上的流量。
nagios是一款很专业的监控软件,监控服务器状态很强大,但是配置起来复杂一些,能监控的应用层面(网络服务监控)的内容比cacti较多(优点),插件也非常多,赞一个。
nagios会调用插件去检测服务器状态,并把插件返回来的状态信息并进行处理后,把状态结果通过web显示出来。并根据状态实现告警。感觉报警机制要比cacti强。 图像看着没cacti好。(缺点) nagios客户端得安装NRPE. 说是支持400-500台机器的监控。我没试过,没有那么多的机器。
zabbix 分为zabbix server 和zabbix agent.也就是说客户端得安装agent. 优点点是支持多平台的监控软件,功能强大,监控灵活,报警灵活。 支持分布式。支持snmp,jmx,ipmi类型。自带画图功能,得到的数据可以绘成图形。全web管理。自带key,同时支持调用脚本。很方便。 缺点是批量修改不方便,中文资料少。画图没cacti好。官网说zabbix 支持5000台机器的监控。
对于在监控软件的使用过程中,有哪些难点?,网友zongg表示,难点的话可能是配置方面,监控项设置方面吧。现在用的是cacti+zabbix,感觉够用了,zabbix用起来比较灵活。 zabbix 可以根据自己的需求设置一些触发器,达到触发器的数值就会报警。 比如说,系统的平均负载,进程数,流量,tomcat jmx,dns 之类的都可以实现。 对于使用监控软件的收获,网友zongg指出,在使用过程中会熟悉哪些指标需要监控,哪些是非必要的。会系统的全局有大致的宏观了解。故障一般的都是软件层面的,及时登陆到机器上看看是什么情况,大多数都可以解决。将来的规划是现深入的学习zabbix,说实话,zabbix 真不错,真心推荐给大家。很灵活。如果有机会再试试分布式。如果有运维研发,zabbix是一个好的选择进行二次开发。 其实不管哪个监控软件,只要是自己了解,顺自己的手,能够满足需要都OK的。
网友cgweb也表示:运维工程师们在大数据时代,下面对大量网络安全事件,若没有有效工具是无法完成分析工作,他们往往面对更多的挑战,如下:
1) 每天出现巨大数量的安全报警,管理员很难对这些报警做出响应。 2) 误报严重,管理员无法准确判断故障。 3) 大量重复、零散而没有规律的报警,黑客的一次攻击行动,会在不同阶段触发不同安全设备的告警,这样导致报警数据之间在时间和空间上存在大量重复数据,如果不实现安全事件的关联处理,就无法有效的提高告警质量。 当出现这些问题的部分原因是企业缺乏事件监控和诊断等运维工具,因为如果没有高效的管理工具支持,就很难让故障事件得到主动、快速处理。市面上有很多运维监控工具,例如商业版的Cisco Works 2000、Solarwinds、ManageEngine以及专注故障监控的WhatsUp,在开源领域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia等。 这些开源工具做了一个简单的比较:
由于它们彼此之间没有联系,即便是你部署了这些工具,很多运维人员并没有从中真正解脱出来,原因在于目前的技术虽然能够获取计算机设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起,让人根本没办法判断问题的根源在哪里,缺乏对信息进行筛选、数据挖掘的能力,其实我们并不缺少工具,商业的也好,开源的也吧,一抓一大把,为什么还是用不好?真正缺少的是分析数据的智能化。
另外我们的查看各种监控系统需要多次登录,查看繁多的界面,更新管理绝大多数工作都是手工操作,即使一个简单的系统变更或更新,往往需要运维人员逐一登录系统,当设备数量达到成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT 运维中往往每天都在进行,这无疑会占用大量的运维资源。因此,运维工作人员需要统一的集成安全管理平台已迫在眉睫。
也许这个话题点引爆了大家的想法,很多网友都纷纷发表了自己的看法(更多精彩内容点击),总体看来随着企业规模变大,纯手工运维已经难以保障业务需求,只有建立起自动化运维才能在数据中心更好的管理起来,对于选择开源监控软件还是商业监控软件,跟企业属性有很大关系,互联网企业大多数会选择开源软件或自主开发,但对于传统企业而言商业监控软件也许是最好的选择,能够快速上手,更多的人员做更多自己擅长的事情。
总结:数据中心运维对于运维企业而言并非易事,要想将数据中心里成千上万的IT设备“信手拈来”,这其中考验的不仅仅是经验,也不仅仅是技术,而是要基于一整套完善的、经过实践验证的先进的方法论,将人员、工具、流程、平台等有机整合才能实现。