1:什么是 Rebalance
Rebalance 本质上是一种协议,规定了一个 Consumer Group 下的所有 consumer 如何达成一致,来分配订阅 Topic 的每个分区。
例如:某 Group 下有 20 个 consumer 实例,它订阅了一个具有 100 个 partition 的 Topic 。正常情况下,kafka 会为每个 Consumer 平均的分配 5 个分区。这个分配的过程就是 Rebalance。
2:Rebalance触发的机制
- 有新的消费者加入消费组
- 有消费者宕机下线。消费者不一定需要真正下线,例如遇到长时间的GC,网络延迟导致消费者长时间未向GroupCoordinator发送心跳等情况,GroupCoordinator会认为消费者已经下线。
- 消费者组所对应的GroupCoordinator节点发送变更。
- 消费组内所订阅的任一主题数量或者主题的分区数量发生变化。
3:Rebalance触发引发的问题
- 引发消费数据重复消费问题
当消费者正在消费数据,这个时候多了个消费者,消费数据会被暂停,这个时候offset可能没被提交,但是这批数据在rebalance之后会被重新消费,造成数据可能被重新消费。
4:Rebalance 过程分析
Rebalance 过程分为两步:Join 和 Sync。
- Join 顾名思义就是加入组。这一步中,所有成员都向coordinator发送JoinGroup请求,请求加入消费组。一旦所有成员都发送了JoinGroup请求,coordinator会从中选择一个consumer担任leader的角色,并把组成员信息以及订阅信息发给leader——注意leader和coordinator不是一个概念。leader负责消费分配方案的制定。
- Sync,这一步leader开始分配消费方案,即哪个consumer负责消费哪些topic的哪些partition。一旦完成分配,leader会将这个方案封装进SyncGroup请求中发给coordinator,非leader也会发SyncGroup请求,只是内容为空。coordinator接收到分配方案之后会把方案塞进SyncGroup的response中发给各个consumer。这样组内的所有成员就都知道自己应该消费哪些分区了。