《TKE学习》TKE服务中的告警服务 (十)

2019-11-27 16:48:47 浏览数 (1)

概述

良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。

腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。

收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据,您可以较为清楚的了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O。

操作场景

腾讯云容器服务支持为集群设置集群、节点、Pod 3个维度的告警。为您的集群设置合理的告警,有助于避免和快速发现集群异常,降低业务风险。

TKE实践

  • 在容器服务的控制面板点击告警设置选项,选择新建。
Snipaste_2019-11-27_14-15-55.pngSnipaste_2019-11-27_14-15-55.png
  • 根据需求选择告警维度并设置合适的告警指标,如图:
Snipaste_2019-11-27_14-17-12.pngSnipaste_2019-11-27_14-17-12.png

策略类型共有三个维度:集群、节点、pod。各个维度的指标有一定的不同。

集群告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-08.pngSnipaste_2019-11-27_14-34-08.png

指标

单位

说明

CPU 利用率

%

集群整体的 CPU 利用率

内存利用率

%

集群整体的内存利用率

CPU 分配率

%

集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比

内存分配率

%

集群所有容器设置的内存 Request 之和与集群总可分配内存之比

Apiserver 正常

Apiserver 状态,默认 False 时告警,仅独立集群支持该指标

Etcd 正常

Etcd 状态,默认 False 时告警,仅独立集群支持该指标

Scheduler 正常

Scheduler 状态,默认 False 时告警,仅独立集群支持该指标

Controll Manager 正常

Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标

节点告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-23.pngSnipaste_2019-11-27_14-34-23.png

指标

单位

说明

CPU 利用率

%

节点内所有 Pod 的 CPU 使用量占节点总量之比

内存利用率

%

节点内所有 Pod 的内存使用量占节点总量之比

节点上 Pod 重启次数

节点内所有 Pod 重启次数之和

Node Ready

节点状态,默认 False 时告警

Pod 告警指标

web页面显示如图:

Snipaste_2019-11-27_14-34-36.pngSnipaste_2019-11-27_14-34-36.png

指标

单位

说明

CPU 利用率(占节点)

%

Pod 的 CPU 使用量占节点总量之比

内存利用率(占节点)

%

Pod 的内存使用量占节点总量之比

实际内存利用率(占节点,不包含 Cache)

%

Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比

CPU 利用率(占 Limit)

%

Pod 的CPU使用量和设置的 Limit 值之比

内存利用率(占 Limit)

%

Pod 的内存使用量和设置的 Limit 值之比

实际内存利用率(占 Limit,不包含 Cache)

%

Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比

Pod 重启次数

Pod 的重启次数

Pod Ready

Pod 的状态,默认 False 时告警

CPU 使用量

Pod 的 CPU 使用量

内存使用量

MB

Pod 的内存使用量,含缓存

实际内存使用量

MB

Pod 内所有 Container 的真实内存使用量之和,不含缓存

  • 选择告警接受组以及告警渠道,如图:
Snipaste_2019-11-27_14-39-44.pngSnipaste_2019-11-27_14-39-44.png
  • 点击提交完成告警设置。

0 人点赞