节点CPU利用率超过阈值,CPU平均利用率超过阈值告警

2023-01-06 14:57:11 浏览数 (2)

问题现象:emr控制台“集群监控”-->“集群事件”里会出现“CPU利用率连续高于阈值”的告警事件

可能影响:

  • 机器响应变慢,操作出现延时,严重可能出现宕机,影响集群正常读写或使用。
  • 任务处理缓慢,可能导致任务堆积。

处理建议:

  • 适用于master节点
  1. 查看节点进程详情监控(入口见下图,点击红框IP),

查看节点详情监控入口查看节点详情监控入口

判断主要由哪些进程引起该告警("节点状态"下"负载状态"里的"TOP CPU Processes"项)。

2、若是HiveServer2或客户手动起的进程,建议迁移至router节点,降低master机器的CPU,从而保障集群稳定性。

  • 适用于所有类型节点,检查集群监控,若出现以下情况之一,建议机器升配或集群扩容
  1. CPU使用率告警的持续时长,如长时间一直保持在超阈值范围。
  2. 告警期间集群读写或任务是否有影响,如发生任务变慢,无法分配资源等情况。

PS:如需了解和配置监控指标及事件告警可参考下列文档:

emr集群事件

快速配置云监控事件告警推送

emr监控指标项告警配置

emr

0 人点赞