问题现象:emr控制台“集群监控”-->“集群事件”里会出现“ 单盘空间使用率持续高于阈值”的告警事件
可能影响:
- 可能影响集群正常写入及任务的正常运行
处理建议:
- 查看节点进程详情监控(入口见下图,点击红框IP),
判断主要由哪个磁盘引起该告警。
- 由上面方法判断出是节点根目录(/)还是数据目录(/dataxx),若是根目录,清理与集群或系统无关文件,如客户自建目录文件;若是数据目录,可以通过hdfs命令删除集群无用文件,或者选择扩容集群core节点、云硬盘扩容其中一种方式。删除文件需谨慎,若无法判断可提单至腾讯云侧提供支持
PS:如需了解和配置监控指标及事件告警可参考下列文档:
emr集群事件
快速配置云监控事件告警推送
emr监控指标项告警配置