澳大利亚退休金基金管理公司UniSuper在使用谷歌云进行基础设施即服务(IaaS)合同时,发现当整个基础设施订阅被删除时,自己没有任何灾难恢复(DR)手段。
UniSuper由37所大学拥有,为他们的员工提供退休储蓄。截至2023年中期,UniSuper拥有超过61.5万名成员和1240亿澳元(约合820亿美元)的管理基金。同年6月,该组织通过IT服务提供商Kasna,使用谷歌云VMware引擎,将其基于VMware的硬件基础设施从两个数据中心迁移到谷歌云。当时,UniSuper架构负责人Sam Cooper兴奋地说:“借助谷歌云VMware引擎,迁移到云端变得简单且极易操作。这关乎效率,有助于我们为成员提供极具竞争力的费用。”
然而,今年5月2日,UniSuper遭遇了由谷歌云内部故障引发的服务中断和数据丢失,该故障持续了数天,服务恢复始于5月9日。
UniSuper和谷歌云在5月7日的一份声明中透露:“UniSuper服务的中断是由谷歌云罕见的几个问题组合造成的,这些问题在UniSuper私有云的配置过程中导致了无意的错误配置,触发了之前未知的软件错误,影响了UniSuper的系统。这是一个前所未有的情况,我们已经采取措施确保此类问题不再发生。”“谷歌云对于由此造成的不便表示诚挚的歉意,我们仍将继续与UniSuper密切合作,全力解决问题,并尽快逐步恢复服务。我们再次强调,这是一起孤立事件,并非恶意行为或网络攻击的结果,UniSuper的数据没有暴露给未经授权的第三方。”
作为私有云合同的一部分,UniSuper将其服务和数据在谷歌云的两个区域进行了复制——但这种区域分离实际上是虚拟的,因为由于谷歌的内部错误,两个区域中的副本都出现了问题。UniSuper没有外部灾难恢复(DR)设施。
谷歌云的首席执行官也参与了此事,UniSuper在5月8日表示:“谷歌云首席执行官托马斯·库瑞安(Thomas Kurian)已经确认,此次中断是由一系列前所未有的事件引发的,即在为UniSuper私有云服务提供配置时,出现了无意的错误配置,最终导致UniSuper私有云订阅被删除。”
UniSuper的谷歌云订阅被用于提供其系统——涉及约1900台虚拟机、数据库和应用程序——并存储其数据。订阅的删除意味着谷歌提供的所有基础设施都消失了。作为一个好的实践例子,UniSuper在两个地理位置(谷歌云区域)中复制了服务,以防止中断和损失。然而,正如其在声明中指出的那样,“当UniSuper的私有云订阅被删除时,这两个地理位置中的服务都遭到了删除。”
UniSuper的一份声明指出:“UniSuper已经与另一家服务提供商建立了备份。这些备份已经最大限度地减少了数据丢失,并显著提高了UniSuper和谷歌云完成恢复的能力。”
这是良好备份实践的部分示例,但“最小化”并不等于“避免”。这意味着一些备份数据已经丢失,因为UniSuper没有遵循3-2-1备份原则,即至少保留三个版本的备份。此外,很明显UniSuper没有灾难恢复设施,使其能够从此次谷歌云故障中恢复。
截至5月13日,UniSuper的多项服务已恢复在线。UniSuper首席执行官Peter Chun在一份声明中指出:“我的团队正在对这次事件进行全面审查,以确保我们尽可能降低未来中断的风险。我们将评估此次事件,并确保我们能够以最 佳状态提供会员所期望和应得的服务。”如果UniSuper不是一个拥有1240亿澳元庞大资产、在谷歌云两个区域存储数据的公司,而是一个年收入在500万至1000万美元的中型企业或小企业,情况又会如何?在被联系后,谷歌需要多长时间才能调查其运营情况并在庞大的IT环境中发现某个地方的配置错误?谷歌云首席执行官Thomas Kurian会介入吗?
颇具讽刺意味的是,谷歌云平台的一份说明警告道:“一家在故障后难以恢复运营的公司可能会受到品牌损害。因此,一个坚实的灾难恢复计划至关重要。”没错,确实如此,但GCP客户UniSuper却没有这样的计划。我们已经要求UniSuper就此问题发表评论。
这个故事的寓意是,一个坚实的灾难恢复计划应该包括IaaS供应商失败的可能性。GCP IaaS客户请注意这一点。