HDFS存储空间使用率超过阈值

2023-01-06 15:13:17 浏览数 (2)

问题描述及原因:hdfs集群存储空间使用率超过配置阈值,剩余磁盘空间不足

问题现象:emr控制台“集群监控”-->“集群事件”里会出现“HDFS存储空间使用率持续高于阈值”的告警事件

也可在“集群概览”里查看实际hdfs集群存储量,如下图

可能影响:

  • 影响HDFS数据写入

处理建议:

  • 清理hdfs集群无用文件或扩容集群core节点
  1. 在EMR控制台进入“集群监控”下的“集群事件”,点击“事件策略”,选择“HDFS”大类,在里面找到巡检指标“HDFS存储空间使用率持续高于阈值”,查看阈值大小。
  2. 在EMR控制台进入“集群服务”,点击“HDFS服务”下的“WebUI地址”进入hdfs webui界面(用户为root,ui密码为创建集群设置密码),然后点击“Datanodes”,在“Block pool used”列查看所有DataNode节点的磁盘使用率,判断有无DataNode节点的磁盘使用率超过阈值。若有,执行3;否,执行6。

       3. 用hadoop用户登录集群节点,选择并确认是无用的文件或目录,执行hdfs dfs -rm -r [-skipTrash] 文件或目录路径命令,需注意选项-skipTrash将跳过回收站(如果启用)并立即删除指定的文件。

       4. 在EMR控制台进入“集群监控”下的“集群事件”,检查告警是否恢复。若无,执行5

       5. 对集群可进行扩容 Core 节点后做 hdfs balancer,扩容操作见 https://cloud.tencent.com/document/product/589/14627

PS:如需了解和配置监控指标及事件告警可参考下列文档:

emr集群事件

快速配置云监控事件告警推送

emr监控指标项告警配置

emr

0 人点赞