问题描述:DataNode进程发生full GC
问题现象:emr控制台“集群监控”-->“集群事件”里会出现“ DataNode 发生full GC ”的告警事件
原因:
- 该节点DataNode实例堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。
可能影响:
- DataNode进程的垃圾回收时间过长,可能影响该DataNode进程正常提供服务。
处理建议:
1. 在EMR控制台“集群服务”下,点击“HDFS”进入HDFS服务管理列表,切到“配置管理”页签,修改hadoop-env.sh中的“DNHeapsize”配置项,单个DataNode实例平均Block数量和DataNode内存的对应关系参考值如下:
代码语言:javascript复制单个DataNode实例平均Block数量达到2,000,000,DataNode的JVM参数参考值为:-Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M
单个DataNode实例平均Block数量达到5,000,000,DataNode的JVM参数参考值为:-Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G
PS:如需了解和配置监控指标及事件告警可参考下列文档:
emr集群事件
快速配置云监控事件告警推送
emr监控指标项告警配置