网络通信 频道

数据中心故障原因有哪些?

  如果想增加数据中心的正常运行时间,需要识别并缓解最常见的中断源。这可能很有挑战性,因为数据中心可能出现故障的原因有很多,而且通常不可能解决每一个问题。相反,数据中心运营商必须决定优先考虑哪些正常运行时间威胁。

  数据中心正常运行的最大威胁

  您可能会认为数据中心停机的最常见原因是网络攻击或极端天气等风险,这些风险一旦发生往往会引起媒体的广泛关注。

  但实际上,从数据中心正常运行时间的角度来看,这些风险可以忽略不计。大多数数据中心故障的核心问题分为以下几类:

  1.物理系统故障

  数据中心故障最常见的原因是电源问题,根据报告显示,电源问题占所有数据中心故障的52%。另外19%的停电事件源于数据中心冷却问题,该研究所将其与电力系统问题分开分类。

  这意味着,到目前为止,数据中心正常运行的最大风险是物理系统故障。想要提高正常运行时间的数据中心运营商应该投资于冗余能源供应或HVAC系统等解决方案。

  2.第三方提供商的挑战

  对数据中心正常运行时间的第二大威胁是第三方供应商问题。这意味着由服务提供商(企业通过外包协议或类似安排与其签约管理数据中心)造成的故障。

  很难说将数据中心运营转移到企业内部是否会缓解这个问题。似乎可以推断,专注于日常数据中心运营的数据中心外包企业,可能比数据中心管理不是重点的企业实现更好的正常运行时间率。但在这方面的里程可能会有所不同,这取决于内部员工在管理数据中心方面的熟练程度。

  无论如何,如果您选择第三方提供商来管理数据中心运营,应该询问其正常运行时间记录,以确保提供商不会成为数据中心可用性策略中最薄弱的环节。

  3.IT设备故障

  IT系统硬件和软件故障是数据中心停机的第三大常见原因。这并不奇怪,因为自数字时代来临以来,企业一直在努力应对服务器崩溃的问题。

  虽然没有灵丹妙药可以减轻这种风险,但有一些行之有效的策略。比如投资更好的监控和可观察性解决方案,并创建带有自动故障转移控制的备份IT环境,以便如果服务器崩溃,其工作负载可以立即转移到另一台服务器。

  4.网络故障

  网络故障与IT设备故障类似:它们导致数据中心停机的概率几乎完全相同,而且是企业长期以来一直在应对的一种挑战。

  与增加IT设备正常运行时间一样,提高数据中心网络可靠性的策略,包括更好的网络监控和在网络内建立冗余,以便当部分网络出现故障时,数据包可以选择替代路由。

  更多地使用软件定义网络也可以提高网络可靠性,因为使用软件控制而不是物理网络设备可以更容易地识别和减轻故障。

  其他数据中心正常运行时间挑战

  火灾和信息安全事件也在数据中心停机原因排名中占据重要位置,但只是勉强上榜。它们分别占所有中断的3%和1%。

  当然,这并不是说不应该投资防火措施和网络安全保护。但如果想决定优先考虑哪些类型的数据中心正常运行风险,数据表明这些不应该是列表上的唯一操作。

0
相关文章