【IT168专稿】进入新的世纪之后,高等学校对于校园网络系统的依赖程度日益加强,随之出现了网络规模不断扩张的现象。校园网络中心的地位随着系统规模的扩大,成为了广大教职员工、管理人员的关注焦点。随着而来的一个现象是,越来越多的网络故障处理使得网管人员整日疲于奔命,越来越频繁的网络攻击行为使得购置了昂贵网络防护设备的校园网不堪一击。如何提高网络管理效率,如何快速恢复因攻击而瘫痪的系统,成为高校网管人员急切解决的技术难题。如何尽量减少停机率,如何变被动式的网络管理为系统主动承担起可能的网络管理责任,体现了运维管理技术的软件系统的兴起正在为网管人员提供理想的解决问题的策略。本文结合几所高校实施北塔运维管理的经验,谈一谈高校运维管理的实施策略。
1.应该尊重运维管理的规律
运维管理是IT管理的重要组成部分,从确保系统运行的角度来说,运维管理几乎是整个IT管理的全部。调查几所高校的网络主管之后,笔者得出了一个重要的结论,尊重运维管理的内在规律是调高运维效果的根本保障。
IT运维管理的核心和重点部分分成两大部分,即IT业务系统和运维人员。具体包括七个子系统:设备管理、数据管理、内容管理、资源资产管理、信息安全管理和日常工作管理等。其中设备管理负责对校园网络的网络设备、服务器设备、操作系统运行状况等方面进行监控,并对各种应用支撑软件,如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;数据/存储/容灾管理则负责对系统数据和业务数据进行统一的存储、备份和恢复;业务管理则负责对学校核心业务系统运行情况的监控与管理;目录/内容管理主要负责学校需要统一发布的公共信息的管理;资源资产管理负责管理学校IT系统的资源资产情况,并与学校财务部门进行数据交互,这一项目在参与调研的多数学校没有实施;信息安全管理包含校园网络系统的安全组织方式、通信与运营安全、访问控制等方面的管理;日常工作管理则用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据,进而完善IT运维管理,提高网络信息部门的服务水平。
要尊重运维管理的规律,就是要求网络管理人员做到变被动管理为主动管理,最大限度发挥运维管理系统的作用,尽量做到少停机或在不停机的状态下完成网络运维工作。即使必须停机的情况下,也要做到在停机之前检查所有环节是否正常,并在可能的前提下对系统进行备份。状况排除之后,在首次启动机器之前,要先落实设备不能正常启动时,可以保证能得到供应商的服务支持,多数情况下这类服务需要付出足够的服务费用。参与调查的一些学校,有2/3的学校因为拒绝付出服务费用而在系统出现故障的时候,供应商拒绝提供免费的及时服务响应,这是需要引起各高校重视的。
尊重运行维护的基本规律是非常重要的维护理念,尤其是与网络中心有直接责任的一些部门的主管,面临运维管理和行政管理冲突时,要说服自己理解网络运维的规律,为网络系统的安全,有时行政管理要有所让步。
2.重视BSM
从单台设备的管理过渡到目前以整体系统运维,IT运维管理经历了漫长的发展历程。然而随着高校网络规模和信息化水平的不断提升,单纯的设备管理或者人工管理模式显然不能满足高校对网络整体性能和稳定性的要求,专家们由此提出了业务服务管理是IT运维管理的终极目标的全新理念,也就是今天我们常说的BSM。
高等学校的运维管理中,涉及到的业务服务项目包括教务管理、行政管理、信息查询管理等诸多方面。为了更好地运营维护好IT系统,网络中心需要进行全新的管理变革,启动IT运维管理系统,可以自动管理全校的IT资源,并可直观显示设备及网络链路的负载或通断状态;需要将终端设备的IP和MAC地址进行绑定,便于管理人员迅速定位地址盗用、冲突以及非法设备上网的问题;还需要直观的数据流量分析,以便查找异常数据流量,为正常的教学工作提供稳定的支持;同时提供网络预警功能,对设备状态、应用服务端口状态、数据包传输情况进行预警设置,并能以声音或者短信的方式告知网络系统管理员。运维平台系统可以进行流程化的管理,管理员应该以邮件的形式将故障处理结果告知需要服务的用户。
在设备选型方面应该选择思科等品牌的网络设备,服务器等关键部件也应选择国内外知名的品牌,如IBM、HP、DELL、浪潮、联想等等。运维系统软件也要选择北塔等知名品牌的产品。设备选型确定后,系统安装应该进行有关网络性能的测试,以保证运维系统对常规的网络运营效率不产生明显的影响。最后一个环节是做好用户的培训,使用户理解运维系统的工作程序,使运维系统最大程度地发挥其效能。比如在用户网络系统发生故障时,网管软件第一时间发出告警,通过性能分析能够发现当前设备的异常,进而关联设备的物理拓扑图,并在物理拓扑图上确定其告警的重要等级,如果紧急故障则需要迅速排除,以保障用户网络系统的正常,通过在设备的面板图上进行直接的操作可以极大的节省处理故障时间,有效提高用户的日常工作效率。
3.北塔运维系统应用分析
以图1中的网络拓扑结构为例我们分析应用了北塔运维系统的一些常见问题。选择适合的IT运维产品是问题解决的前提,应该根据学校的IT规模决定选择适合的IT基础设施管理产品。选择的重点应该是底层监控,因为只有做好了底层监控,对数据进行归并分析,才能为更高层的流程化管理以及学校日常业务管理提供数据支持。一些大而全的产品实施起来对管理人员的技术以及管理水平都有较高的要求,而这些对于那些网络信息部门只有10人以下的学校来说,选择国产IT运维品牌,如北塔软件这样的国内厂商,才是恰当的选择。
除此之外,还要由长远的发展目标。很多学校认为,购置了IT运维软件,以后就无需过度关注IT运维问题了,事实上IT系统和业务应用是动态发展变化的,架构的调整,规模的扩大等等都对运维管理软件和管理人员提出更高的要求,对IT运维软件的更新升级,或者实施新的IT运维管理平台都是学校信息化领导需要不断去考虑的问题。随着技术的发展,网络运维管理已经上升到一个全面、综合的发展阶段,其管理的范畴已经不仅仅局限于对于网络、设备的管理,用户所需要的网管就是全面、综合性的网管,即从设备到线路,从机房环境到应用服务,再到整体的网络性能,这是新一代网络运维管理软件的特征,也是运维管理人员必须理解的网络运维管理的真谛。
经过多家采用北塔运维产品的高校认为,北塔BTNM网络管理系统可以全面解决高校的网络信息系统运维管理问题,具体体现在:(1)层次化部署,统一式管理。通过分层管理,信息中心通过使用BTNM产品,在网络管理中心可以直接调阅所有下属部门的网络实时物理拓扑结构,包括设备负载情况、端口状态,故障日志等等。各层次相对独立,上级部门可以对下级部门进行管理,保证了网络管理的统一性和完整性。(2)准确定位、报警及时。BTNM提供故障预警管理,通过设置“阈值”,可以监测设备运行是否超负载、线路流量是否正常、端口是否异常错包等现象,并可以准确定位故障位置。(3)分级管理。BTNM为学校网管提供多用户多角色管理,包括系统用户管理、角色管理、角色权限分配、操作审记和日志管理等功能,不同的管理人员赋予了不同级别的权限,为主管领导查看网络整体运行情况以及进一步采取网络架构优化调整提供了数据参考。(4)协同运维管理。通过北塔业务流程管理系统,建立网络运维知识库,保障了网络正常运行,通过系统定义全网管理人员在网络运维中的不同职能,为实现协同运维管理提供了规范的流程。
4.结束语
运维管理是提高高校网络性能的必备保障,已经成为诸多高校舍得花费成本建设的网络信息系统的重要组成部分。通过笔者的调研,经过实践的用户普遍认为,运维管理系统的实施可以有效解决网络管理中存在的各类问题,降低了网络运维成本,为用户提供了性价比优良、符合管理要求的运维工具。网络管理员该系统可以及时发现故障位置,及时排除故障原因,确保为广大教师和行政管理人员提供安全、稳定的网络环境。