问题描述及原因:
当前处于 Active 状态的 ResourceManager 转成 StandBy 状态,原先处于 StandBy 状态的 ResourceManager 转成 Active 状态
Yarn ResourceManager 主备切换 / 持续主备切换
可能影响:
- YARN 服务无响应
- 作业无法提交
- 无法查看当前任务状态
处理建议:
- 分析日志查看监控
- 排查切换原因,分场景解决
场景1 新增或变革参数无效
YARN ResourceManager日志搜索关键字 "Error" 或新变更参数,若存在则需要参考社区官网参数配置
场景2 RM多任务并发运行出现频繁主备切换
YARN ResourceManager的fullGC时间过长,RM与ZK连接频繁超时导致RM频繁主备切换。NM需要与RM响应任务状态,即定时心跳响应,当NM节点数量非常大且任务数量非常大会给Resourcemanager带来非常大的压力导致fullGC,fullGC过长引起RM与ZK的响应失败,从而出现频繁主备切换。建议调整RM内存大小/任务错峰提交。
场景3 UI响应慢历史任务查询多
参数yarn.resourcemanager.max-completed-applications(RM保存完成任务的最大数目)设置值过大(5000 ,EMR默认值150,社区默认值1000)。数据过大,前台显示缓慢/历史任务查询多也会给resourcemanager带来不必要的压力和性能瓶颈。建议值保留平均每天作业数的7倍左右就可以。