数据中心平均故障间隔时间的说明和标准-网络通信专区

数据中心平均故障间隔时间的说明和标准

作者：Kathy 编辑：王冠 2010-12-09 00:00 来源：机房360

　　使用AFR评估过程对MTBF计算结果抽样

　　下面的假想示例有助于说明整个过程。

　　第1步：确定抽样总体全部为“X”牌15kVA**系统，是在2003年的第36周到第47周(9月1日至11月21日)生产的，生产窗口时长共12周。抽样总体共2000台装置。

　　第2步：确定采样窗口从2004年2月2日开始，至2004年7月16日结束。选择这一采样窗口时，考虑了在产品库存和分销过程中会有10周的延迟。

　　第3步：将故障定义为由任何原因(包括人为错误)引起的关键负载停用。

　　第4步：在样本期间，总共报告了二十起故障。其中，九起故障被划分为关键负载停用故障，其他故障为非关键故障。因此，根据第3步中确定的故障定义，下面计算中使用的故障数为九。已经在计算AFR之前接收、诊断和修理了出现故障的产品。

　　影响AFR的可变因素大多数情况下，用户是从供应商处获取MTBF值，不带有任何用于证实这些数值的相关数据。如上所述，当查看多个系统的MTBF值(或AFR值)时，了解分析所用的隐含假设和可变因素(特别是定义故障的方式)非常重要。比较时若忽视了这一点，比较结果出现偏差的可能性就会变大，可能会出现500%或更高的偏差。最终可能导致不必要的业务支出甚至意外停机。一般来说，必须有明确的可变因素定义、假设定义以及故障定义，才可以比较两个或更多系统间的MTBF值。即使两个MTBF值看起来很相似，仍然有比较结果出现偏差的可能。因此，必须弄清MTBF结果后面隐含的内容，并仔细研究和领会这些数值所包含的含义。

　　下面将介绍每个可变因素，并说明他们可能对结果产生的影响。附录中提供一个核对表，可以用于比较两个或多个系统间的可变因素。完成比较后，必须再检查一下核对表，以确定系统间有哪些不同的可变因素。通过逐一严格分析这些不同的可变因素及其对MTBF的影响，可以确定比较是否公正并可以作为产品规格或购买决策的关键标准。

　　产品功能、应用和边界在比较两个或更多MTBF值之前，验证被比较的两个产品是否同类非常重要。被比较的产品必须在功能、性能及应用方面相似。如果被比较的产品是**，则产品功能就是为连接的负载提供备用电源。此产品的用途可能是用来支持数据中心环境中的关键IT负载。如果没有相似的应用，就不可能进行公正的MTBF比较。例如，对工业用途和IT用途的比较是不切合实际的。

　　稳定故障率假设要使计算AFR和MTBF的现场数据评估方法有效，必须假设被分析产品具有稳定的故障率。很重要的一点就是要判明此假设对于被比较产品的类型是否合理。对于电子系统或组件，这个假设通常可以成立。该产品是否属于这一类?如果不属于，计算出来的值可能不会是预期故障的代表性值，进行公正比较的可能性就很小。

　　抽样总体大小在明确产品及其应用非常相似后，很重要的一项工作就是审查现场数据采集过程。在这里，定义抽样总体大小(生产的产品数量)是第一个关键的可变因素。如果抽样总体中定义的产品数量太少，那么得出的MTBF估计值就很可能没用。因此，比较MTBF值时，确保每个值都是基于足够大的抽样总体大小，这是非常重要的。

　　尽管被比较产品的生产率可能不同，但需要着重考虑的是抽样总体中的产品数量。如果某个产品的生产率较低，那么此产品的生产时间范围应该比较大，以便能够达到一个合适的产品数量。例如，供应商“A”在一个月内生产1000台产品，而供应商“B”在一个月内生产50台“同类”产品。对于供应商“B”，抽样总体中应包括若干个月生产的产品，以确保结果的统计有效性;对于供应商“A”，一个月内生产的产品就够了。

　　抽样总体中产品的最晚生产日期和样本期间开始日期之间的时间间隔如果抽样总体范围的结束时间和样本采集期的开始时间之间没有足够的时间间隔，那么AFR和MTBF值可能是不准确的。被比较的每个系统的供应商必须为其抽样总体提供足够时间，以便在开始采集故障数据之前系统可以完成库存及分销过程。

　　例如，如果某个特定产品通常在库房中存放一个月后，进入分销过程(历时一个月)，那么评估故障前设定的最短时间应该是两个月。总“等待”时间因产品类型而异。由于要进行比较的产品类型应该相似，所以总体期间和样本期间之间的时间应该相似。如果某个供应商明显没有足够的等待时间或根本没有等待时间，那么他们的系统AFR可能会低于实际值，在比较这些值时要特别注意。

　　样本数据采集期正如在此过程第2步中所指出的那样，选择合适的样本数据采集期非常重要。如果被比较的系统具有相同长度的采样窗口，并且具有相似的生产量和/或销售量，就可以进行公平比较。不过，情况并不总是这样。如果各个系统的数据采集期时间不同，那么单独地评估每个系统，确定其是否能够反映准确的故障率就很重要。

　　产品数量越少，窗口应该越长。例如，如果某个供应商每个月的产品产量为10台，用一个月时间来采集故障数据，时间就不充分。因为产品数量少，所以用这个月内报告的故障(如果有)来推断前几个月的故障率，可信度很低。

　　故障定义如果两个可比较产品间的故障定义不同，那么进行故障分析就象比较苹果和橙子一样毫无意义。因此，要进行有效的MTBF比较，一项基本任务就是准确分析每个被比较产品的故障组成。因此，对于MTBF计算，供应商应该将哪些故障统计在内?

　　将用户误用导致的故障统计在内是否有用?设计者可能忽视了许多人为因素，这将导致用户很容易误用产品。

　　在电源保护行业中，**故障的最常见“定义”是“负载停用”故障。这表示向负载供电超出了可接受范围，导致了负载停止运转。不过，将由供应商维修技术人员导致的负载停用统计在内是否有用?产品设计本身是否会提高风险程序出现故障的可能性?

　　如果计算机上的LED(发光二级管)出现故障，是否属于故障(虽然它没有影响计算机的运行)?

　　如果耗材(例如电池)的使用期比预期的时间要短，是否属于故障?

　　运输造成的损坏是否属于故障?这可能表明包装的设计不当。是否将重复出现的故障统计在内?也就是说，对于同一用户使用的同一系统内诊断结果相同的故障，是重复计数还是仅计数一次?安装过程导致的故障是否统计在内?此故障可能是供应商技术人员引起的。如果用户没有购买推荐的维护合同或监视系统，是否将故障统计在内?如果地震导致建筑物损害，使得系统出现故障，是否将故障统计在内或将其视为“天灾”?是否将系统外某些组件的故障统计在内?对于**系统，系统外组件可能是电池或旁路开关。如果出现连锁故障，导致后续系统停机，是将每个系统的故障都统计在内还是仅统计第一个系统的故障?

　　如果某个系统进行了“自定义”设置，是否将该系统的故障从抽样总体中排除?

　　工业中用来计算MTBF的实际故障定义可能会有一些衍生情况。上面列出的只是一小部分。因为将许多异常情况统计为故障，所以MTBF值所反映的系统性能比实际使用情况更可靠。要为合作伙伴和用户提供AFR和MTBF值，比较MTBF值时需要一个明确的故障定义。

　　有三个直观定义：

　　类型0该产品有一个妨碍其运转的缺陷或故障。

　　类型I产品整体失效，无法实现其所应实现的功能。

　　类型II个别组件失效，无法实现其应实现的功能，但不是产品整体失效，无法实现该产品应实现的功能。2除了了解每个供应商选择的定义，还必须明确是否包括人为故障。在MTBF计算要包括人为失误的情况下，比较MTBF值可能更困难。这是因为有多种可能导致故障的人为失误，使得供应商需要筛选出与人为失误相关的故障。如果所有供应商都没有筛选出相同类型的故障，那么系统比较结果就很值得怀疑。

第1页：MTBF的比较性分析的现实方式和步骤第2页：使用AFR评估过程对MTBF计算结果抽样

关注我们