问题现象:emr控制台“集群监控”-->“集群事件”里会出现“CPU利用率连续高于阈值”的告警事件
可能影响:
- 机器响应变慢,操作出现延时,严重可能出现宕机,影响集群正常读写或使用。
- 任务处理缓慢,可能导致任务堆积。
处理建议:
- 适用于master节点
- 查看节点进程详情监控(入口见下图,点击红框IP),
判断主要由哪些进程引起该告警("节点状态"下"负载状态"里的"TOP CPU Processes"项)。
2、若是HiveServer2或客户手动起的进程,建议迁移至router节点,降低master机器的CPU,从而保障集群稳定性。
- 适用于所有类型节点,检查集群监控,若出现以下情况之一,建议机器升配或集群扩容
- CPU使用率告警的持续时长,如长时间一直保持在超阈值范围。
- 告警期间集群读写或任务是否有影响,如发生任务变慢,无法分配资源等情况。
PS:如需了解和配置监控指标及事件告警可参考下列文档:
emr集群事件
快速配置云监控事件告警推送
emr监控指标项告警配置