Yarn ResourceManager 主备切换

2022-09-07 10:06:50 浏览数 (1)

问题描述及原因:

当前处于 Active 状态的 ResourceManager 转成 StandBy 状态,原先处于 StandBy 状态的 ResourceManager 转成 Active 状态

Yarn ResourceManager 主备切换 / 持续主备切换

可能影响:

  • YARN 服务无响应
  • 作业无法提交
  • 无法查看当前任务状态

处理建议:

  • 分析日志查看监控
  • 排查切换原因,分场景解决

场景1 新增或变革参数无效

YARN ResourceManager日志搜索关键字 "Error" 或新变更参数,若存在则需要参考社区官网参数配置

场景2 RM多任务并发运行出现频繁主备切换

YARN ResourceManager的fullGC时间过长,RM与ZK连接频繁超时导致RM频繁主备切换。NM需要与RM响应任务状态,即定时心跳响应,当NM节点数量非常大且任务数量非常大会给Resourcemanager带来非常大的压力导致fullGC,fullGC过长引起RM与ZK的响应失败,从而出现频繁主备切换。建议调整RM内存大小/任务错峰提交。

场景3 UI响应慢历史任务查询多

参数yarn.resourcemanager.max-completed-applications(RM保存完成任务的最大数目)设置值过大(5000 ,EMR默认值150,社区默认值1000)。数据过大,前台显示缓慢/历史任务查询多也会给resourcemanager带来不必要的压力和性能瓶颈。建议值保留平均每天作业数的7倍左右就可以。

0 人点赞