【解读】关于数据中心可靠性和可用性的几个概念

2018-03-01 14:42:52 浏览数 (3)

导读:数据中心的重要性在于支持企业应用不间断运行,但近年来,世界各地的数据中心频频爆发安全故障事件,在一次次冲击着企业用户的心理防线。这也让我们产生一些思考,究竟该如何评判一个数据中心的优劣?

国内外数据中心的规范标准按照机房的性质和重要性将数据中心划分为以下不同的级别:

注:GB50174和TIA942并没有完全对应关系,本表仅为不同级别数据中心的对比。

这种级别的划分归根结底还是在可靠性和可用性上的划分,等级越高要求其可靠性和可用性就越高,其年平均故障时间就越短。因此我们评判数据中心优劣的标准可归结为:可靠性和可用性。

可靠性(Reliability)是一个概率值,指某个设备或系统在一个指定的时间内能够无故障的持续稳定运行的可能性。人们通常用MTBF(Mean Time Between Failure,平均无故障时间)这一指标来量化它。MTBF反映了产品的时间质量。可靠性是一个随时间变化的函数,时间越长,可靠性越低。其计算公式为:R(t)=e-λt,其中,λ为故障率,λ=1/MTBF.

可见,可靠性是一个与时间相关的标准,时间越长,可靠性越低。但是如果初始系统设计的较优秀,系统在更长时间内正常运行的概率就越高。由于数据中心中包含有各种各样的仪器和设备,不同的设备MTBF不尽相同,甚至是相同功能的设备MTBF也有所不同,所以对于数据中心的MTBF应该取所有设备MTBF的最小值。一些数据中心充分考虑了设备的业务备份,从而很大程度上避免了因设备故障造成业务中断的情况,所以MTBF的数值越高,就可以证明这个数据中心越好。对于MTBF不高的数据中心,依然可以通过其它数据备份、容错的方式提高其可靠性指标。其中容错是高可靠性的重要体现,当灾害或错误发生时,能够有自动修复和还原的作用,减少数据中心系统宕机率,确保系统的不间断运行。

可维护性(Serviceability)是指系统在规定环境条件下和规定的时间内,完成规定功能的能力,以及完成维护的容易程度。可维护性用MTTR指标来量化。MTTR(MeanTime To Repair,平均故障维修时间)是随机变量恢复时间的期望值,它包括确认失效发生所必需的时间以及维护所需要的时间。MTTR数值越小,说明数据中心故障恢复处理能力越强。数据中心出现各种故障是难免的,而MTTR数值越小的数据中心恢复业务的用时就越短,带来的损失也越小。

可用性(Availability)是指系统在使用过程中可以正常使用的时间与总时间之比,它是一个比率指标,其计算公式是A=MTBF/(MTBF MTTR)。可用性可以用来表示某一运行中的可修复设备或系统在这段时间内能按其功能稳定运行的能力。例如:一个数据中心的MTBF是10年,MTTR是1小时,那么可用性指标A=10*365*24/(10*365*24 1)=0.9999772=99.9989%.在数据中心行业里,通过可用性指标的9数字的多少来表示数据中心可用性的高低。但可用性并不会特指故障发生的频率,对于相同的可用性,有以下数据:

通过可靠性和可用性这两个指标基本可以对一个数据中心有个整体综合评价,通过两个指标的对比也可以分出数据中心的好与差,是评价一个数据中心的根本。这使得数据中心基础设施的设计有了可量化的依据,也使得评估有了可量化的依据。

来源: 中国IDC圈

0 人点赞