问题描述及原因:hdfs集群存储空间使用率超过配置阈值,剩余磁盘空间不足
问题现象:emr控制台“集群监控”-->“集群事件”里会出现“HDFS存储空间使用率持续高于阈值”的告警事件
也可在“集群概览”里查看实际hdfs集群存储量,如下图
可能影响:
- 影响HDFS数据写入
处理建议:
- 清理hdfs集群无用文件或扩容集群core节点
- 在EMR控制台进入“集群监控”下的“集群事件”,点击“事件策略”,选择“HDFS”大类,在里面找到巡检指标“HDFS存储空间使用率持续高于阈值”,查看阈值大小。
- 在EMR控制台进入“集群服务”,点击“HDFS服务”下的“WebUI地址”进入hdfs webui界面(用户为root,ui密码为创建集群设置密码),然后点击“Datanodes”,在“Block pool used”列查看所有DataNode节点的磁盘使用率,判断有无DataNode节点的磁盘使用率超过阈值。若有,执行3;否,执行6。
3. 用hadoop用户登录集群节点,选择并确认是无用的文件或目录,执行hdfs dfs -rm -r [-skipTrash] 文件或目录路径命令,需注意选项-skipTrash将跳过回收站(如果启用)并立即删除指定的文件。
4. 在EMR控制台进入“集群监控”下的“集群事件”,检查告警是否恢复。若无,执行5
5. 对集群可进行扩容 Core 节点后做 hdfs balancer,扩容操作见 https://cloud.tencent.com/document/product/589/14627
PS:如需了解和配置监控指标及事件告警可参考下列文档:
emr集群事件
快速配置云监控事件告警推送
emr监控指标项告警配置