健康检查,是容器服务提供的健康巡检功能。
使用该功能,用户可以快速地获取集群运行时状态,资源使用水位,及时发现集群问题。
后期生成的巡检报告,针对性地说明了,相关问题的处理建议,可供用户参考。
说明:
(1)健康检查任务,需要用户侧手动触发,或者设置周期运行,才会运行。
(2)健康检查任务,本身占用资源少,执行速度快。日常周期运行,建议放在夜间处理。
1. 进入健康检查页面:
2. 设置自动检查
如上图所示:
(1)开启自动检查,设置每天夜间0点周期运行。
(2)这样用户侧,就可以及时获取集群的健康状态,尽早发现、解决问题。
3. 补充说明:
(1)任务运行形式:平台组件以daemonset 形式启动pod,在集群业务node 上运行诊断检查,所属命名空间tke-cluster-inspection。
(2)任务资源消耗:node 上单个任务Pod资源消耗 内存<20mb,CPU<0.1核心。
(3)任务执行时间:视集群规模,业务Pod规模有所变化,以下测试数据仅供参考:
序号 | 集群节点数量 | 集群pod规模 | 资源消耗/巡检任务单个Pod | 执行耗时 |
---|---|---|---|---|
1 | 2 | 20 | 内存<20mb,CPU<0.1核心 | 5-10s |
2 | 10 | 100 | 内存<20mb,CPU<0.1核心 | 30-60s |
3 | 10 | 200 | 内存<20mb,CPU<0.1核心 | 30-60s |
(4)开源代码地址:https://github.com/tkestack/kube-jarvis