配置腾讯云监控实现CPU和内存高利用率时触发告警抓住最佳时机上机排查

2024-07-16 14:22:06 浏览数 (3)

问题现象:经常远程不上,需要重启才能远程上,远程不上时查看云监控CPU或内存指标都是接近100%的利用率。

处理思路:设置监控告警,当内存或CPU利用率超过85%时触发告警,然后立即上机

①Linux执行top命令查看CPU或内存使用率靠前的进程。

shift p,CPU利用率倒序排列

shift m,内存利用率倒序排列

shift n,PID倒序排列

1(没错就是数字1),子CPU利用率(下图是双核机器)

②Windows在powershell里执行get-process |sort-object ws -descending |select-object -first 10查看内存使用率排名前10的进程,执行get-process |sort-object cpu -descending |select-object -first 10查看CPU使用率排名前10的进程。

有2种监控告警,一种是平台告警功能需要自己配置,一种是自定义消息需要自己写代码实现业务逻辑。2种的共同点是都需要先配置告警接收人,然后新建策略。前者的策略逻辑是平台实现的,后者的策略逻辑是自己写代码实现的。

首先配置告警接收人

https://console.cloud.tencent.com/cam

或者在[默认项目]默认监控接收组里添加用户

https://console.cloud.tencent.com/cam/groups

先把用户添加到组,关联手机、邮箱(必须做关联

https://console.cloud.tencent.com/monitor/message

这里主要说平台监控告警,自定义消息监控告警在另一篇文档里说(https://cloud.tencent.com/developer/article/1557931 )

首先需要在这里配置告警策略https://console.zijiebao.com/monitor/policylist

如果是监控内存利用率,修改下触发条件

配置好以后,如果点了如下图中的“设置默认”,当前已经关联的设备以及以后新购的设备都会受这个策略影响。每种策略类型每个项目仅有一个默认策略。如果要删除某种策略类型的默认策略,需要解绑所有设备并设置新的该种策略类型的策略将其设置为新的默认策略,这样原来的默认策略就变成非默认策略了,然后就可以删除了。

0 人点赞