单盘IO利用率超阈值告警
问题现象:emr控制台“集群监控”-->“集群事件”里会出现“ 单盘IO设备利用率持续高于阈值”的告警事件
可能影响:
- 可能影响集群正常读写及任务的正常运行
处理建议:
- 查看节点进程详情监控(入口见下图,点击红框IP),
判断主要由哪些进程引起该告警("节点状态"下"负载状态"里的"TOP IOProcesses"项)。
2、也可通过点击“基本配置”里的对应磁盘,查看具体的单盘IO利用率
- 告警期间集群读写或任务是否有影响,如发生任务变慢,无法分配资源等情况,建议集群扩容或使用高IO型机器替换该类型节点(先缩容,再扩容)
磁盘IO设备利用率超阈值
- 处理建议参考单盘IO利用率超阈值告警
PS:如需了解和配置监控指标及事件告警可参考下列文档:
emr集群事件
快速配置云监控事件告警推送
emr监控指标项告警配置