可用性(availability)是系统能够正常运行的时间比例。经常用两次故障之间的时间长度或在出现故障时系统能够恢复正常的速度来表示。计算机系统的可用性用平均无故障时间( MTTF)来度量,即计算机系统平均能够正常运行多长时间,才发生一次故障。
可靠性(reliability)是软件系统在应用或系统错误面前,在意外或错误使用的情况下维持软件系统的功能特性的基本能力。可维护性用平均维修时间(MTTR)来度量,即系统发生故障后维修和重新恢复正常运行平均花费的时间。
由于可靠性指标直接影响可用性指标,所以一般我们将这两个指标一并分析与讨论。
高可用性(High Availability)通常用来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。
计算机系统的可用性定义为:MTTF/ (MTTF MTTR) *100%。
常见的可用性战术如下:
错误检测:用于错误检测的战术包括命令/响应、心跳和异常。
错误恢夏:用于错误恢复的战术包括表决、主动冗余、被动冗余。
错误预防:用于错误预防的战术包括把可能出错的组件从服务中删除、引入进程监视器。