节点内存使用率高于阈值告警

2023-01-06 14:56:48 浏览数 (2)

问题现象:emr控制台“集群监控”-->“集群事件”里会出现“内存使用率持续高于阈值”的告警事件

可能影响:

  • 有机器oom风险,严重可能出现宕机,影响集群正常读写或使用

处理建议:

  1. 查看节点进程详情监控(入口见下图,点击蓝框IP),

判断主要由哪些进程引起该告警("节点状态"下"负载状态"里的"TOP Memory Processes"项)。

  • 适用于所有类型节点,检查集群监控,若出现以下情况之一,建议机器升配或集群扩容
  1. 内存高于阈值告警的持续时长(可查看上图节点监控中的“内存使用占比”项),如长时间一直保持在超阈值范围。
  2. 告警期间集群读写或任务是否有影响,如发生任务变慢,无法分配资源等情况

  • 适用于master节点
  1. 参考建议详见文档:EMR-Master 节点配置过低运行失败

PS:如需了解和配置监控指标及事件告警可参考下列文档:

emr集群事件

快速配置云监控事件告警推送

emr监控指标项告警配置

emr

0 人点赞