消息队列是越来越多的实时计算场景下得到应用,而在实时计算场景下,重复消息的情况也是非常常见的,针对于重复消息,如何处理才能保证系统性能稳定,服务可靠?今天的大数据开发学习分享,我们主要来讲讲消息队列如何处理重复消息?
1、消息重复的情况必然存在
在MQTT协议中,给出了三种传递消息时能够提供的服务质量标准,这三种服务质量从低到高依次是:
At most once:至多一次。消息在传递时,最多会被送达一次。也就是说,没什么消息可靠性保证,允许丢消息。一般都是一些对消息可靠性要求不太高的监控场景使用,比如每分钟上报一次机房温度数据,可以接受数据少量丢失。
At least once:至少一次。消息在传递时,至少会被送达一次。也就是说,不允许丢消息,但是允许有少量重复消息出现。
Exactly once:恰好一次。消息在传递时,只会被送达一次,不允许丢失也不允许重复,这个是最高的等级。
这个服务质量标准不仅适用于MQTT,对所有的消息队列都是适用的。现在常用的绝大部分消息队列提供的服务质量都是At least once,包括RocketMQ、RabbitMQ和Kafka都是这样。也就是说,消息队列很难保证消息不重复。
2、用幂等性解决重复消息问题
一般解决重复消息的办法是,在消费端,让我们消费消息的操作具备幂等性。
一个幂等操作的特点是,其任意多次执行所产生的影响均与一次执行的影响相同。一个幂等的方法使用同样的参数,对它进行多次调用和一次调用,对系统产生的影响是一样的。所以,对于幂等的方法,不用担心重复执行会对系统造成任何改变。
从对系统的影响结果来说:At least once 幂等消费=Exactly once。
几种常用的设计幂等操作的方法:
①利用数据库的唯一约束实现幂等
举个例子:将账户X的余额加100元。可以通过改造业务逻辑,让它具备幂等性。
首先,可以限定对于每个转账单每个账户只可以执行一次变更操作,最简单的是在数据库建一张转账流水表,这个表有三个字段:转账单ID、账户ID和变更金额,然后给转账单ID和账户ID这两个字段联合起来创建一个唯一约束,这样对于相同的转账单ID和账户ID,表里至多只能存在一条记录。
这样,消费消息的逻辑可以变为:在转账流水表中增加一条转账记录,然后再根据转账记录,异步操作更新用户余额即可。在转账流水表增加一条转账记录这个操作中,由于在这个表中预先定义了账户ID转账单ID的唯一索引,对于同一个转账单同一个账户只能插入一条记录,后续重复的插入操作都会失败,这样就实现了一个幂等的操作。
只要是支持类似INSERT IF NOT EXIST语义的存储类系统都可以用于实现幂等,比如,可以用Redis的SETNX命令来替代数据库中的唯一约束,来实现幂等消费。
②为更新的数据设置前置条件
另外一种实现幂等的思路是,给数据变更设置一个前置条件,如果满足条件就更新数据,否则拒绝更新数据,在更新数据的时候,同时变更前置条件中需要判断的数据。这样,重复执行这个操作时,由于第一次更新数据的时候已经变更了前置条件中需要判断的数据,不满足前置条件,则不会重复执行更新数据操作。
比如,将账户X的余额增加100元这个操作并不满足幂等性,可以把这个操作加上一个前置条件,变为:如果账户X当前的月为500元,将余额加100元,这个操作就具备了幂等性。对应到消息队列中的使用时,可以在发消息时在消息体中带上当前的余额,在消费的时候判断数据库中当前余额是否与消息中的余额相等,只有相等才执行变更操作。
更加通用的方法是,给数据增加一个版本号属性,每次更新数据前,比较当前数据的版本号是否和消息中的版本号一直,如果不一致就拒绝更新数据,更新数据的同时将版本号 1,一样可以实现幂等更新。
③记录并检查操作
还有一种通用性最强的实现幂等性方法:记录并检查操作,也称为Token机制或者GUID(全局唯一ID)机制,实现思路:在执行数据更新操作之前,先检查一下是否执行过这个更新操作。
具体的实现方法是,在发送消息时,给每条消息指定一个全局唯一的ID,消费时,先根据这个ID检查这条消息是否有被消费过,如果没有消费过,才更新数据,然后将消费状态置为已消费。
但在分布式系统中,这个方法非常难以实现。首先,给每个消息指定一个全局唯一的ID就是一件不那么简单的事情,方法有很多,但都不太好同时满足简单、高可用和高性能,或多或少都要有些牺牲。更加麻烦的是,检查消费状态,然后更新数据并且设置消费状态这三个操作必须作为一组操作保证原子性,才能真正实现幂等,否则就会出现Bug。
关于大数据开发学习,消息队列如何处理重复消息,以上就为大家做了基本的介绍了。消息队列在使用场景当中,重复消息的出现不可避免,那么做好相应的应对措施也就非常关键了。