分布式事务如何解决？

分布式事务的由来，当两个系统一个负责扣款，一个负责发货，但是扣款的系统出现异常，扣款失败，货还在正常发送，这时候分布式事务就出现了。

简单来说，就是一次大的操作都由小的操作来组成，这些小的操作部署在不同服务器上，且属于不同的应用，分布式事务保证这些操作要么全部成功，要么全部失败。

首先理解cap定律：可用性，一致性，分区容错率。因为三者不可以同时满足，于是就出现了base理论，base意思是保证分区容错率和可用性，来用最终一致性来解决一致性问题。

当我们A系统数据修改成功，传递给B系统的时候，出现异常，这时候B系统还是之前的数据，于是就导致了一致性失效，只保证了可用性和分区容错率。

那么我们这时候如何保证一致性呢，就需要牺牲分区容错率，当发生异常的时候进行事务的回滚，这种业务场景在数据库需要保证高一致性的情况下使用很多，双11这种场景就会牺牲分区容错率保证数据一致性。

分布式解决方案？

一、2PC两阶段提交方案/XA方案

一个系统担任协调器角色，其他系统担任参与者，主要分为conmmit-request阶段和commit。

请求阶段：协调者向所有参与者发起准备提交请求，然后收集。

提交阶段：如果全都是ok，则会提交请求，否则进行回滚或者取消提交请求。

方案缺陷：

同步阻塞：所有参与者都是事务同步阻塞，当参与者占有公共资源，其他访问节点访问时候则不得不阻塞。

无法高可用：单点故障，一旦协调者出问题，系统则不可用。

数据不一致：当参与者有的没接收到消息，处于阻塞，这段时间则不一致。

不确定性：当协调者发送commit，这时候只有一个参与者受到新消息，当参与者与协调者宕机时候，新选举的协调者无法判断是否已提交消息。

XA解决方案可以用springBoot atomikos jta来实现分布式事务处理。

3pc对于协调者和参与者都设置了超时时间，而2pc只有协调者才有超时机制。避免了参与者长时间未收到commit消息，无法释放资源问题，参与者长时间未收到commit会自动进行本地commit进而释放资源。另外canCommit、preCommit、doCommit是哪个阶段的设计，保证了参与节点各个状态一致。

二、TCC方案

Tcc方案分为try confirm cancel三个阶段。

Try（尝试待执行的任务）：并没有真实执行，检查所有业务需要的资源，并预留。

Confirm（执行业务）：直接执行业务，因为之前有预留资源，直接使用。

Cancel（回滚）：业务执行失败，则会释放所有资源，并回滚已操作数据。

try阶段：

比如商品系统用户点击购买商品，

1、订单数据库这时候改为‘下单中’。

2、账户金额数据库金额扣减，冻结资金10，剩余90.

3、库存系统数据库库存扣减，冻结1.

Confirm阶段：

1、订单数据库这时候改为‘下单成功’。

2、账户金额冻结金额扣减成功，剩余90.

3、库存数据库扣减成功。

Cancel阶段：

1、订单数据库更新为‘下单失败’。

2、金额还原成100，状态支付失败。

3、库存还原成100，下单失败。

TCC方案适合强一致性，适合金钱相关的，因此需要大量业务处理补偿代码，提供补偿机制。有开源的TCC框架，TCC-transaction。

三、本地消息表

1、A系统首先写入业务表，然后写入消息表，将消息通过mq发送给B系统。

2、B系统首先写入消息表，可以通过主键唯一性保证不会重复消费，之后再写入业务表，当业务执行成功，再发送消息到mq。

3、A系统这时候就会监听到B系统是否成功，再根据B系统的mq消息来决定是否回滚。

四、最大努力通知方案

使用于一些最终一致性低的业务，入银行和商户通知等。

A系统在本地事务完成之后，通过mq不断通知b系统去发送消息给用户，如果ok则成功，不ok则重试几次进入死信队列或者补偿机制。

数据库 sql 分布式

0 人点赞