问题现象:emr控制台“集群监控”-->“集群事件”里会出现“内存使用率持续高于阈值”的告警事件
可能影响:
- 有机器oom风险,严重可能出现宕机,影响集群正常读写或使用
处理建议:
- 查看节点进程详情监控(入口见下图,点击蓝框IP),
判断主要由哪些进程引起该告警("节点状态"下"负载状态"里的"TOP Memory Processes"项)。
- 适用于所有类型节点,检查集群监控,若出现以下情况之一,建议机器升配或集群扩容
- 内存高于阈值告警的持续时长(可查看上图节点监控中的“内存使用占比”项),如长时间一直保持在超阈值范围。
- 告警期间集群读写或任务是否有影响,如发生任务变慢,无法分配资源等情况
- 适用于master节点
- 参考建议详见文档:EMR-Master 节点配置过低运行失败
PS:如需了解和配置监控指标及事件告警可参考下列文档:
emr集群事件
快速配置云监控事件告警推送
emr监控指标项告警配置