概述
良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。
腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。
收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据,您可以较为清楚的了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O。
操作场景
腾讯云容器服务支持为集群设置集群、节点、Pod 3个维度的告警。为您的集群设置合理的告警,有助于避免和快速发现集群异常,降低业务风险。
TKE实践
- 在容器服务的控制面板点击告警设置选项,选择新建。
- 根据需求选择告警维度并设置合适的告警指标,如图:
策略类型共有三个维度:集群、节点、pod。各个维度的指标有一定的不同。
集群告警指标
web页面显示如图:
指标 | 单位 | 说明 |
---|---|---|
CPU 利用率 | % | 集群整体的 CPU 利用率 |
内存利用率 | % | 集群整体的内存利用率 |
CPU 分配率 | % | 集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比 |
内存分配率 | % | 集群所有容器设置的内存 Request 之和与集群总可分配内存之比 |
Apiserver 正常 | Apiserver 状态,默认 False 时告警,仅独立集群支持该指标 | |
Etcd 正常 | Etcd 状态,默认 False 时告警,仅独立集群支持该指标 | |
Scheduler 正常 | Scheduler 状态,默认 False 时告警,仅独立集群支持该指标 | |
Controll Manager 正常 | Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标 |
节点告警指标
web页面显示如图:
指标 | 单位 | 说明 |
---|---|---|
CPU 利用率 | % | 节点内所有 Pod 的 CPU 使用量占节点总量之比 |
内存利用率 | % | 节点内所有 Pod 的内存使用量占节点总量之比 |
节点上 Pod 重启次数 | 次 | 节点内所有 Pod 重启次数之和 |
Node Ready | 节点状态,默认 False 时告警 |
Pod 告警指标
web页面显示如图:
指标 | 单位 | 说明 |
---|---|---|
CPU 利用率(占节点) | % | Pod 的 CPU 使用量占节点总量之比 |
内存利用率(占节点) | % | Pod 的内存使用量占节点总量之比 |
实际内存利用率(占节点,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比 |
CPU 利用率(占 Limit) | % | Pod 的CPU使用量和设置的 Limit 值之比 |
内存利用率(占 Limit) | % | Pod 的内存使用量和设置的 Limit 值之比 |
实际内存利用率(占 Limit,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
Pod 重启次数 | 次 | Pod 的重启次数 |
Pod Ready | Pod 的状态,默认 False 时告警 | |
CPU 使用量 | 核 | Pod 的 CPU 使用量 |
内存使用量 | MB | Pod 的内存使用量,含缓存 |
实际内存使用量 | MB | Pod 内所有 Container 的真实内存使用量之和,不含缓存 |
- 选择告警接受组以及告警渠道,如图:
- 点击提交完成告警设置。