【IT168资讯】2012年9月15日消息,由盛拓传媒旗下的IT168、ChinaUnix、ITPUB联合主办为期三天(2012年9月13日~2012年9月15日)的第四届中国系统架构师大会于在北京永泰福朋喜来登酒店隆重召开。来自百度、淘宝、腾讯、IBM、新浪、网易、奇虎360等IT巨头的讲师分享了业界非常先进的技术经验与趋势。
民生人寿保险股份有限公司应用管理经理 杨春元 在大会上以“系统故障情况下的生产快速恢复”为主题为与会的架构师进行了精彩的分享。
运维是什么?
系统运营是集基础架构、开发管理、业务处理乃至企业战略于一身的大事,系统运行的每时每刻都是战场。应用管理人员长期处于如履薄冰的状态,一方面微笑着服务,一方面随时警惕脚下的深渊。
运维的主要内容包括1.正常运行维护, 维护、事件、变更、上线、退役、备份、优化、预案准备、考核值班:故障率、故障次数,2. 故障处理,恢复生产、查找原因、信息披露,考核指标:RTO与RPO。
故障发现与解决的一般规律,首先要判断这个事情,是不是一个可恢复的事情,第二件事情是,不能恢复的时候,你要怎样来做?
下面我们来说一下,生产恢复的两大核心问题,当一个故障发生以后,你首先判断的事情是能不能恢复,是否能够恢复的了,在确定了这一步的基础上,接着考虑的是怎么恢复,不能够恢复的时候,我们就得考虑重构,你也得恢复,因为业务上要用这些东西。
可恢复情况下如何恢复,第一种方式忙里偷闲式恢复,包括局部功能暂停、特定范围数据不用、故障部件逐步替换(在线搬迁时可借鉴,尤其是采用负载均衡器+中间件的模式时),第二种方式是快速恢复,包括裁弯取直(虫洞)和并行这两种方法。
并行执行的一般原则: 根据任务分层、大任务优先、所有资源充分三个原则执行。任务分层包括如果任务有多个步骤,就要划分为多个层次;同一个层次的任务是可以并行的;不同层次的任务必需串行,且有严格的执行顺序。大任务优先包括如果可同时执行的任务数量少于要执行的任务数量,那么优先执行大任务;按照每个任务执行所需的时间从大到小排序执行;当前任务执行完毕后,执行剩余任务中最大的任务。所有资源充分包括在多个层次的情况下,要确保总体上资源空闲越少越好;每个局部都最优不保证全局最优,适当取舍可能更佳;大多数时候想做到全局最优是困难的,次优方案也许是非常好的选择(混沌学)。
不可恢复情况下的数据重构——技术原理,由于某种原因,不可能完全恢复,只能恢复到业务状态的某一特定时点,然后严格按照原系统的输入条件进行推进。适用范围:基表业务数据受损;发生不可逆的操作错误;重构的成本远低于恢复成本:报表类系统、批处理补提。数据重构方法:数据库Recover;备份系统恢复;CDP:飞康或EMC存储设备提供等方法。最后呢我们对待故障的披露一定要注意语言表达的技巧。