记一次spark的job倾斜

2021-03-19 18:02:30 浏览数 (2)

快下班了,结果集群维护群炸了,说hdfs丢块了,吓得我赶紧上去看看。发现50070页面并没有提示丢块,那我就帮着排查下吧

下面是报错信息

可以看到这个task在这个机器执行失败了,时间是下午四点,我登陆到cm上看看机器的负载,发现激增

问了租户使用的队列,发现:

在这个时间就4个job而且都是select count * 这种临时查询语句,而且是同一个语句,然后。。。。。不管了!

0 人点赞