网络通信 频道

磨刀不误砍柴工 论运维预案的重要性

  【IT168 评论】阿里巴巴的工程师有多厉害?民间一直有传说,12306如果用了马云的工程师,每年春运期间就不必再被民众唾骂了。其实,淘宝每年“双11”的傲人成绩,除了有技术支撑外,还少不了运维预案的准备。运维预案涉及到的网络高可用、突发事件处理和应急处理流程等,从基础到应用,从技术到管理都是一个挑战。

  现在各大网站,各大电商系统都在准备各种大促活动,一个好的运维预案是必不可少的,那么该如何做好运维预案呢?网友ge_johnny(以下简称囧尼)分享了他的自身故事。

  大概10年前,囧尼在一家500强的咨询公司做data center的管理,当时该公司正在通过BS7799认证,该标准现在已经被ISO吸纳,叫ISO27001。在准备该认证的时候,有类似于运维预案里要求的应急处理流程,叫BCP - Business Continuity Plan,即业务持续性计划。该计划要考虑的维度同电商系统要求的不一样,但如果满足该计划的要求则可以满足电商系统的所有要求,而且考虑的方面要多得多,牵涉的部门也不仅仅是内部的IT。

  由于囧尼所在公司的主要业务是为银行金融保险等各行业的TOP公司做外包项目,所以当时公司的BCP要求是在以下三种情况发生后,公司的业务中断到恢复的时间(甚至24*7的不中断服务)是否满足SLA(服务级别合同)的要求。

  这三种情况是:

  1. Building Outage:公司所在的几个大楼完全不可用,如何保证业务持续性?用什么办法能够保证用最小的人力和资源,最快在多长时间恢复业务?基于此设想设计相关流程并周期性的演练;

  2. City Outage:在城市不可用的情况下,满足1的要求;

  3.Country Outage:整个国家陷入混乱,如何处理?

  客户敢不敢把新项目拿到公司实施,需要各个相关部门证明确保对任何情况都有所准备,所以该计划涵盖无死角是能不能争取到客户的一个关键,也是项目能够顺利实施直至按时交付使用的重要保证之一。

  面对这样的计划项目,囧尼感觉有点无从下手,而且该计划涉及资源太多,最终囧尼也只是勉强达到了City Outage的要求。他从人力和物力两方面资源切入,分享了做好预案的关键要素。

  ●人力

  对于building outage,主要是IT部门的负责人和内勤部门的负责人,由于囧尼所在的公司是知识密集型企业,生产设备主要是服务器,没有笨重的生产设备,所以发生building outage无非两种情况,要么机房被破坏,要么大楼变危楼。而对于city outage则由公司大老板拍板是否需要执行这一级别的响应;

  各个项目部门的需求,以项目组为单位,各自根据自己项目的SLA所规定的业务恢复时间提出需要什么后备资源,基本需求都是IT基础设施,再加上各个项目的联络人,甚至是必要的生产人员,情况发生时需要转移到备份站点,备份站点需要准备必要的维护人员。

  ●物力

  在本城市内以及其他城市寻找备份站点,配备必要的备份设施;各个需要转移的关键人员,需要准备日期可更改的机票以应对city outage的情况发生并配备移动办公设备;

  数据的备份磁带,主要是源代码及其他的生产系统的备份,存留若干份,每周的备份放银行保险柜以应对building outage的情况发生;每月的备份发一份到其他城市的某个分公司(备份站点),以应对City Outage的情况发生。

  囧尼的故事三言两语说不完,只是提供了一个另外的角度考虑保障业务的稳定和性能的计划,但是由于高度不同,所以考虑要更全面一些,当然耗费资源也更多一些。

  做好预案是一个基础工作,能够应对IT故障时的业务快速恢复。各大电商系统,在搞大型线上活动时,尽量保障多机房运行下做到负载均衡、故障转移、性能分配、弹性扩容;做限流处理以保障网络高可用;预留一定资源,快速响应做好故障切换;做好多活数据库的预案准备。

  在实际工作中也要灵活应变,保障业务的可用性为第一要务,此外只要能用程序完成的工作,尽量减少人为操作,自动化的处理才是王道。

  更多精彩讨论:http://bbs.chinaunix.net/thread-4188688-1-1.html

0
相关文章