网络通信 频道

企业级灾备中心和数据恢复

  【IT168专稿】数据中心的容灾备份和业务连续对公司来说有多重要?我们来看看国外在这方面的一些统计吧:金融业在灾难停机两天内所受损失为日营业额的50%;如果在两星期内无法恢复信息系统,75%的公司将业务停顿,43%的公司将再也无法开业;没有实施灾难备份措施的公司60%将在灾难后2-3年间破产。由此可见灾难恢复对公司正常运行的重要性、必要性和迫切性。

  实施数据中心的容灾备份,是企业业务持续运作的要求、同时也是企业规避风险健康发展、进行全球化战略发展和布局、成为世界级企业的要求。也是行业监管政策的必要措施。2007年7月,国家标准《信息系统灾难恢复规范》(GB/T20988-2007)出台,并于2007年11月1日开始正式实施。

  企业的业务连续管理包含的内容如下图所示。

  DRP(Disaster Recovery Plan)灾难恢复预案是IT的关注点,负责灾难发生时IT系统的恢复。BCP业务连续性计划关注灾难后企业业务的持续运作,如银行网点在银行信息系统灾难后的恢复正常营业。业务连续管理的内容还包括供应链管理,安全管理,突发事件管理。本文要介绍的是灾难恢复计划(DRP)的相关内容。

  根据灾难恢复的保护级别和数据丢失程度不同,国家标准将信息系统灾难恢复划分为六个等级,如下图。

  灾难恢复等级是基于对灾难恢复七要素的不同要求来定义的,灾难恢复的七大要素如下图。

 

  如果灾难恢复要达到六级的保护等级,灾难恢复七要素需要达到如下图所示的要求。

  国家标准中的灾难恢复预案框架(DRP)包含的内容有:

  1 目标和范围。

  2 组织和职责。

  3 联络和通信

  4 紧急响应流程:灾难预警;人员疏散;损害评估;研判和灾难宣告。

  5 恢复和重新继续运行流程:恢复;重续运行。

  6 灾后重建和回退。

  7 预案的保障条件。

  8 附录:人员疏散计划;产品说明书;IT系统标准操作流程;服务级别协议;资源清单;预案保存和分发方法;业务影响分析报告。

  其中附录中的业务影响分析报告是设计灾备中心时的最初着手点,业务影响分析报告从各个应用的重要性不同出发,判断对各应用采取什么样的等级保护并设计出方案。

  开发DRP的各个工作阶段如下图所示(流程由左至右)。

  灾备中心的设计有几个很重要的灾难恢复业务参数:RTO(Recovery Time Objective)时间恢复目标;RPO(Recovery Point Objective)恢复点目标;NRO(Network Recovery Objective)网络恢复目标;RAO(Recovery Access Objective)访问恢复目标。

  RTO 时间恢复目标是指发生灾难后恢复物理系统环境的时间,例如服务器重启、数据库重启、数据恢复、应用回归正常运行。

  RPO 恢复点目标,指灾难发生前最后一次备份的时间即数据丢失量标准,灾备中心和数据中心的距离会影响RPO值,同城时应为零,异地距离较远时则应控制在分钟级水平。

  NRO 网络恢复目标是灾难发生后的网络恢复时间,即用户在灾难后可以连接到灾备中心的时间。

  RAO 访问恢复目标指验证业务能正常运行的时间,如以银行为例,在向客户和最终用户发布灾难恢复环境以恢复服务/运作之前,银行服务员应可以像用户那样登陆和正确执行交易。

  下面是一个银行客户的灾难恢复业务影响分析。银行客户大约有60个应用,关键应用需要同时运行在主机和开放平台上。根据业务的保护性要求不同将业务分为三类,如下图。

  Ⅰ类是银行面向客户的业务,含24×7小时、8×7小时两种;Ⅱ类为银行的外部链接和批处理业务等;Ⅲ类为银行内部办公和管理系统应用。其中Ⅰ类和Ⅱ类应用需要第6级(无数据丢失)灾难恢复支持,Ⅲ类应用需要第5级或第4级灾难恢复支持。

  银行的部分应用分类如下图。

 

  根据应用的分类和灾难恢复等级确定RTO、RPO等参数指标,如下图。图中包含灾备中心和数据中心同城,异地两种情况。

  从RTO目标来确定数据备份需求和连接需求,根据RTO目标不同设计的三个方案如下图。随着RTO值要求降低,一些应用的连接需求FC(Fiber Channel)值也降低,部分应用的复制方式也不一定需要同步进行。

  灾难备份中心建设的技术实现主要包含高层模式、数据复制、客户端切换、灾备中心建设和互联。

  * 高层模式

  高层模式包括冷备、暖备/热备、双活。

  数据中心冷备份示意图如下.

  冷备模式的灾备中心平时不启用,当数据中心发生故障时才会启用。由于平时不怎么使用,相对成本高,冷备模式的灾备中心现在应用较少,用户考虑建冷备模式的灾备中心时很多也是采用的外包方式,将灾备中心外包给灾备服务提供商,当灾难发生时,要求灾备服务提供商启用灾备中心。

  数据中心暖备份/热备份示意图如下.

  上图中有DC1、DC2两个数据中心,他们各自既是数据中心也是灾备中心。DC1是应用1的数据中心同时也是应用2的灾备中心,DC2是应用2的数据中心和应用1的灾备中心。当用户访问应用1时,DC1正常时连接到DC1,如DC1出故障则连接到DC2。DC1、DC2的主机配置、网络配置、人员配置等基本相同,这样当某一中心出故障时,整体的运营维护不会有跟不上的情况。

  双活模式的数据中心网络架构如下图。

  采用双活模式的数据中心网络架构时,两个数据中心能同时为用户提供服务。数据中心的应用架构基本上都是多层应用架构,分Web层、应用服务器层、数据库层,在各层上实现双活模式的难度不同。Web层一般不基于状态而只是HTTP连接,因此应用基本上可以连接到任一个数据中心的Web层。应用服务器层可以在不基于状态的应用上实现双活。数据库的集群不能跨越太远的距离,太远的距离会导致数据库的访问时间,同步策略等难以实现,因此数据库层的双活在数据中心相距较远时较难实现。

  * 数据复制

  数据中心和灾备中心间的各种数据复制方式如下图所示。

  从兼容性、复杂度、带宽要求上来看,基于阵列的复制方式兼容性、复杂度最低,带宽要求最高,基于应用的复制方式兼容性、复杂度最高,带宽要求最低。

  双活中心基于应用进行数据复制示意图如下。

  双活中心基于应用进行数据复制时,客户发送的应用请求会同时发送到两个数据中心,主中心和备份中心都会做应用数据的处理,正常情况下只有主中心会回复应用请求,灾难情况下则由备份中心回复。两个中心间只需要做数据校验和数据库LOG的验证,因此对数据中心间带宽的要求较小。但是当做需要改写应用的项目时,项目的实施周期较长,同时一些不是通过应用来对数据库进行修改的操作会导致两个中心的数据不一致。

  基于SAN进行复制示例如下图。

  基于SAN进行复制时,当主数据中心对其存储设备进行写操作后,SAN交换机会复制写操作,并对备份数据中心的存储设备作相应的写操作。由于复制操作由SAN设备完成,所以基于SAN进行复制的方式具有对服务器透明、对CPU没有压力、可写异构的存储设备、快速支持多种应用、性能高等优点。

  基于数据库LOG进行数据复制示例如下图。

  当主数据中心对数据库有写操作时,主数据中心会将数据库写操作的LOG传送到备份数据中心,备份数据中心根据LOG对自己的数据库进行相应的写操作。由于传送的是数据库LOG,所以基于数据库LOG进行数据复制的方式需要的带宽少,但它无法实现非数据库类型数据的远程复制,同时,当系统为高IO时,这种方式会对系统性能产生15%左右的影响。

  基于数据表进行数据复制示例如下图。

  基于数据表进行数据复制是一种高性能的数据复制方式,通过数据库代理来侦听数据库的变化。数据库代理利用Trigger(触发器/探针)来侦测数据库的变化,并将侦测到的变化生成为标准的数据表,数据表通过数据总线传输到备份数据中心。基于数据表进行数据复制符合SOA的架构,实现应用接口标准化,还可以实现双向数据复制,或只复制部分数据表、部分数据列,并进行格式转换,同时还可以将数据发布到多个应用系统。

  以上介绍的各种复制方式对应的系统恢复时间如下图。

  基于应用和数据表的数据复制方式对应的系统恢复时间为零,除应用复制方式外其他的复制方式都需要补丢失数据的时间。从图中可以看出应用复制方式的指标最好,但它的应用复杂性和日常维护复杂性都很高。

  在基于SAN进行数据复制方式中,思科的MDS SAN交换机支持压缩、加密,可以减少传输数据的数量并可以对传输数据进行加密。结合思科的WAAS技术在数据中心间传输数据还可以进一步节约带宽,提高效率。

  灾难备份中心建设的技术实现主要包含高层模式、数据复制、客户端切换、灾备中心建设和互联。本文重点介绍客户端切换、灾备中心建设和互联。

  * 客户端切换

  正常情况下,企业的用户、分支机构等都是连接到主数据中心,如下图。

  当主数据中心发生故障之后,企业的用户、分支机构等都应该能切换为与备份数据中心相连接,如下图。

  实现这种客户端切换的一些技术如下图所示。

  手工切换的技术可应用于数据中心的冷备或暖备方式。基于双活中心中的主中心可以采取DNS和HTTP重定向切换技术,能实现负载分配和就近选择。基于双活中心中的备份中心可以采用健康路由注入和BGP切换技术。

  手工切换方式。

  生产中心的IP子网为A.B.0.0,正常情况下,用户和分支机构都会通过这个网段来连接到生产中心,容灾中心的子网也是设置为A.B.0.0,但正常情况下容灾中心的网段是关闭着的,如下图所示。

  当生产中心发生灾难时,此时手动操作打开容灾中心的网段,用户和分支机构不做任何修改便可以连接到容灾中心,如下图。

  DNS切换方式。

  要实现DNS切换方式,在数据中心的部署中必须要有一个智能的DNS设备作为站点的域名解析服务器,思科采用的是思科的GSS设备。主数据中心和备份数据中心都配置了一个GSS,当用户需要访问思科站点www.Cisco.com时,首先会将请求送到电信的DNS服务器进行处理,经过各级的DNS查找之后电信的DNS服务器会将DNS请求送到GSS设备上,GSS设备具有应用感知功能,它可以监控数据中心WEB服务器、应用服务器等的状态。当主数据中心正常时,GSS会将主数据中心服务器的IP地址回给用户,这时用户就连接到主数据中心了,如下图。

  当主数据中心发生灾难时,主数据中心的GSS设备检测不到它的服务器状态,此时备份数据中心的GSS设备便将备份数据中心服务器的IP地址回给用户,用户连接到备份数据中心。

  健康路由注入切换方式。

  主数据中心和备份数据中心的负载均衡设备能探测数据中心后台服务器的健康状况,如果探测到的服务器状况良好,负载均衡设备便向网络中发送一条与负载均衡设备对应的数据中心服务器的主机路由。对于主数据中心和备份数据中心来说,他们发出的主机路由值不同,主数据中心发送低Cost值路由,备份数据中心发送高Cost值路由。两个数据中心都正常工作时,用户发送连接请求后会收到两条Cost值不同的主机路由,通常情况下会选择Cost值低的路由连接到主数据中心,如下图。

  当主数据中心发生灾难时,请求连接的用户只能收到一条来自备份数据中心的高Cost值路由,用户通过该路由连接到备份数据中心,如下图。

  以上介绍的各种客户端切换方式的比较如下图。

  思科的Nexus 7000能实现长距离的vMotion支持,vMotion是一种虚拟机的迁移方式,可以动态的将虚拟机从一台物理主机切换到另一台物理主机,用户的交易连接在切换过程中不会中断。以前,vMotion只能在局域网中实现,思科Nexus 7000能实现200公里以内的两个数据中心间的vMotion虚拟机迁移,如下图。

  * 灾备中心建设和互联

  灾备中心如果要达到六级的保护标准,灾备中心的网络设备、通信线路、服务器必须和生产中心相同,因此思科灾备中心的设计与思科生产中心一样采用标准的分层、分区设计方法。不同的服务器位于不同的区域,服务器经过每个区域的汇聚层连接到核心层,还有存储设备和存储核心的设计。灾备中心的设计中有一个数据中心互联模块,互联模块基本上采用光传输产品来实现高带宽连接,实际中通过应用分析得出数据存储量的大小,根据数据存储量得到所需FC(Fiber Channel)值并在互联模块中部署,还有数据中心间的IP连接需求,IP连接需求一般来说千兆或万兆连接即可满足。

  数据中心间的几种互联方式如下图。

  数据中心间的互联技术选择如下图。

  根据数据中心间的距离选择不同的互联技术。在数据中心内部可采用裸光纤;园区范围内可采用CWDM,CWDM在一根光纤上只能传8个波;城域范围内很多用户会采用DWDM,DWDM在一根光纤上能传32个波,每个波能实现10G的带宽;距离更远时只能采用SDH或IP的方式,SDH或IP方式在长距离时不能做到同步的数据复制。

  SDH和DWDM两种互联方式的比较。

  SDH方式。

  SDH是时分复用技术,目前的最高带宽为10G。

  DWDM方式。

  DWDM是波分复用技术,可将32个波复用到一根光纤上,每个波有10G的带宽,传输数据时可做到现速转发,但应用的距离不能超过200公里。

  在企业级平台上,思科采用Cisco ONS 15454配合不同的功能卡来实现SDH和DWDM。

  数据中心间距离非常远时还可以采用FCIP互联方式,FCIP方式如下图。

  FCIP方式将FC(Fiber Channel)数据(图中黄色部分)增加一个IP数据的包头,将FC(Fiber Channel)数据变换为IP数据并通过IP网络来传输,这样就不用去租用昂贵的SDH线路。思科的MDS交换机在实现FCIP时可实现压缩、加密、用户写加速等优化功能。

  * 案例分享

  某银行北京和上海之间的异地灾备。

  某银行数据中心通讯连路汇聚示例。

  某银行灾备拓补结构。

0
相关文章