网络通信 频道

快书包网服务中断 云服务再遭拷问

  9月7日,快书包网的创始人、首席执行官徐智明在自己的微博上披露:9月3日,为快书包网提供云服务的某云主机供应商在未通知客户的情况下,停机对机房的路由器进行调整,造成快书包网约8小时不能正常访问。9月6日晚,该云主机供应商系统再次发生故障,导致快书包网不能访问。

  徐智明甚至在微博上喊出,要马上更换现在的云服务提供商。一石激起千层浪,徐智明的微博被多人转发,相关评论也很快超过百条。许多人在表示遗憾的同时,也积极为徐智明出谋划策。记者看到,一些云主机服务提供商借机向徐智明示好,希望成为快书包网新的云服务提供商。

  快书包网的云服务中断事件让记者联想起今年连续发生的几起网络服务中断事件。4月,被视为云服务标杆企业的亚马逊出现云服务中断事故,导致多家网站宕机或网络访问速度变慢。这让本来就对云服务心存疑虑的许多企业对云服务更多了一份担心。7月12日,知名在线旅行服务提供商艺龙旅行网出现服务中断,原因是存储系统出现故障,最终经过20多个小时才完全恢复服务。现在,快书包网又重蹈覆辙。

  

快书包网服务中断 云服务再遭拷问

  云服务安全问题被放大

  有业内人士指出,在当前的市场环境下,许多服务商只顾追逐新概念,而真正拥有云计算能力的服务商却比较少。云服务商的服务能力还有待全面增强。

  此外,客户对云服务不甚了解,对云服务寄予了过高的期望。有些用户甚至认为,只要用了云,什么问题都可以解决,因此导致云服务出现问题时措手不及。

  GDS公司负责云计算的副总裁江焕新分析说:“在云服务的概念下,即便部分节点宕机,也应该能够迅速迁移、恢复,从而避免全面宕机,否则云服务的优势就不能完全体现出来。中国的云服务很多是架设在开源系统上的,而且面向的是开发者和小企业,在压力测试和Bug控制方面难以达到企业级的要求。大企业需要商用级别的云服务商为其提供企业级的云服务。”

  从亚马逊、快书包网的例子中,很多人看到的是云服务的安全问题。

  中金数据系统有限公司副总裁黎江表示:“安全问题并不是云计算带来的。相反,云计算模式更有利于解决安全性问题。没有云计算,难道就没有宕机了吗?显然不是。如果用户都自建机房,说不定宕机的频度更高。云计算并没有增加宕机发生的频度,只是云服务中断问题被宣传和关注的程度过高,产生了舆论放大的效应。”

  云基础设施服务提供商对服务的安全可靠、持续可用的保障能力是非常重要的。一个优秀的云基础设施服务提供商必须在这方面下足功夫。当客户选择了一个云服务商,实际上是选择了一种信任。

  谁是救命稻草

  在宕机事件发生后,艺龙网在微博上发出了招贤榜,希望厂商能够帮助其规划容灾系统。徐智明在表示要立刻更换服务商的同时,也希望有人能推荐其他服务商。

  众所周知,宕机这种事是不能完全避免的。在发生宕机事件后,用户是换一个服务商了事,还是应该在业务连续性上多下些功夫呢?

  黎江表示:“用户在最初选择云服务提供商时,首先应该考虑其在安全可靠、持续可用等方面的保障能力;其次要从机房设施环境、设备状况、技术及运维团队、流程制度等各方面全面评估服务商;最后,用户本身也应该制定系统性的业务连续性保障规划,而不能完全依赖某个云服务商。”

  金融行业用户在容灾方面的做法是可以参照的标杆,比如金融用户常用的“两地三中心”就是有效保证业务连续性的一种典型做法。

  GDS公司副总裁张权表示,对于互联网公司来说,最重要的是选择有资质和有能力的服务提供商,只有这样的服务商才能够在策略制定和解决方案实施方面为用户提供强有力的支持和服务。此外,互联网企业要对自身的业务进行分类,对于那些核心业务应用,一定要考虑容灾和高可用性,而在选择基础设施方面,无论采用云架构还是其他的解决方案,都需要明确自己的需求,明确需要达到的RPO(恢复点目标)和RTO(恢复时间目标)指标。

  无论是服务商还是客户,都应该理性看待云服务的“美”。从容灾的角度讲,云服务解决的是单机硬件故障和数据可靠性的问题。即使云服务没问题,如果系统所在的机房出现网络故障也是致命的。类似的问题,不是云服务商或云主机服务商自己能解决的。用户不要指望换一个服务商就能彻底解决问题。

  为了增强业务的可靠性,用户还要根据自己的业务重要性设计容灾方案,除了提升单机房云服务的可扩展性和稳定性之外,还可以实施多机房互备及负载均衡,避免业务系统内存在单点故障。相信不久的将来,一些云服务商也可以提供跨机房的云服务。

  十年改变了什么

  今年是美国“9·11”事件发生十周年。在“9·11”事件中,一些设在世贸大厦中的公司因IT系统被毁而导致数据不能恢复,从而给业务造成了巨大损失,甚至导致某些公司倒闭。

  正是从“9·11”事件开始,中国的企业开始了解什么是容灾,并将容灾系统的建设提上了议事日程。在过去十年中,全球各地频发的各种自然灾害在一次次震惊世人的同时,也无时无刻不在提醒中国的企业,容灾建设的重要性和必要性。

  笔者认为,目前在中国,金融和电信是在容灾方面做得最好的两个行业。究其原因,一方面是因为金融、电信企业的业务需要保证7×24小时连续运行,而容灾是保证业务边续性的必要手段;另一方面,这两个行业都制定了行业规范或条例来统一规划、部署业内企业的容灾系统建设,而且有些规范是强制性的,因此有力地促进了这两个行业的企业加快部署和实施容灾系统。

  许多用户会有这样的心理:如果建立容灾系统,就必须拥有一套与主数据中心生产系统一模一样的容灾系统,而灾难发生的概率极低,大量投入不能见到及时回报无异于浪费。

  正是基于这样的考虑,许多用户会心存侥幸,认为没有容灾系统,业务照常运行,多少年也没有出现过问题。但是灾难有这样的特点,一旦发生就可能给企业造成无法挽回的损失。因此,很多人将容灾建设比喻成买保险。从企业的长远利益考虑,容灾系统的建设应该成为一种自觉行为,而不能指望偶尔发生的灾难刺激企业在容灾上进行被动投资。

  企业对容灾的认识程度高低决定了企业在容灾方面是否会有理性的投入。如果企业认为容灾系统是业务的必要支撑,那么就会自觉地将容灾系统建设纳入议事日程;如果企业认为容灾只是锦上添花,那么在IT经费紧缩时,容灾项目可能会被第一个砍掉。

  在过去十年中,中国用户对容灾的概念和重要性已经有了基本认识,但在容灾建设的必要性、容灾方案的选择、容灾的自建还是外包等问题上还认识模糊,甚至有错误的认识。

  其实,容灾技术发展到今天,用户在选择具体的容灾方案或服务时已经有了多种选择,原来那种对称型的容灾系统已不是惟一的选择,即使是中小企业也可以建立一个经济型的本地快速恢复系统。

  容灾是分成多个层次的,每个企业都可以找到满足自身需求的容灾应用。容灾不是追时髦,容灾对很多企业来说也不是可有可无,尤其是在企业越来越依赖IT系统的今天,容灾已成为企业业务发展的一块重要基石。

0
相关文章