- 高可用
对高可用最直白的理解就是服务在故障或者运维的情况下,确保对用户的影响最小或者零影响。也用两个9、三个9、四个9、五个9等术语来描述,即99%可用率、99.9%可用率、99.99%可用率。在多数场景下,我们谈论高可用都是在谈论应用层的高可用,比如web服务如何确保高可用。但其实除了应用层的高可用以外,还可以把高可用这项工作拆分得更细一点,而所有这些的核心主题是“消除单点”。
回想下图《火星救援》电影里的情节,Mark滞留在火星上的时候,与地球的通讯系统是用故障机恢复的,但也仅仅只有一台,是个严重的单点问题。
- 消除服务进程的单点故障
服务进程服务模式、crontab、supervisor、进程监控告警
- 消除服务器的单点故障
vip、负载均衡、F5、keepalive、服务器监控告警
- 消除存储系统的单点故障
分布式文件系统、内容分发和同步
数据库存储
文件存储
- 消除网络的单点故障
多运营商、CDN
- 消除机房的单点故障
供电、两地三中心
- 消除人的单点故障
TODO:本周只来得及思考个提纲,下周继续收集相关的小细节知识点。