背景说明
某游戏公司大量游戏组件使用容器服务TKE,客户使用独立集群,自行维护Master节点。
云顾问解决方案
通过云顾问检查发现,客户的部分master节点分布在同一可用区,同时node节点在创建时没有考虑多可用区,存在一定容灾风险。如果因为单一可用区发生大面积故障,则节点会发生不可用,导致游戏组件不可用,只能通过在其他可用区恢复集群的方式进行恢复,时间较长,会对业务产生比较大的影响。
此外,云顾问也支持TKE集群所有节点在同一可用区的巡检项,旨在帮助客户提前发现容灾不足的问题,规避问题发生,更好的帮助客户在腾讯云上运行各项业务。
建议客户使用托管集群,则无需关注容灾,托管集群的Master由容器服务TKE内部维护。若使用独立集群,为避免因一次物理层面的故障导致多台 Master 异常,需将 Master 节点打散部署。可借助置放群组来选择将 Master 从物理机、交换机或机架三种维度中其中一种来将 Master 打散,以避免底层硬件或软件故障导致多台 Master 异常。如对容灾要求非常高,还可以考虑将 Master 跨可用区部署,以避免在发生大规模故障时,整个数据中心不可用导致 Master 集体异常的情况。