如何设计一个可靠的分布式消息队列？

Posted 2021-04-26 IoT物联网开发社区

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何设计一个可靠的分布式消息队列？相关的知识，希望对你有一定的参考价值。

要回答这个问题，先得弄清楚下面这些问题：

1 .什么是分布式系统，一个分布式系统要解决哪些问题？

2.一个分布式的消息队列需要共享哪些元数据，需要同步哪些状态？

3.怎么定义可靠？为了达到可靠，需要解决哪些问题？

一.什么是分布式系统，一个分布式系统要解决哪些问题？

分布式系统是由一系列分散自治组件通过互联网并行并发协作，从而组成的一个coherent软件系统。它具备资源共享，横向扩展，并行并发，可靠容错，透明开放等特性。个人觉得分布式系统难点在于：如何在网络不可靠的情况下，依然能够让依靠网络通信的节点之间达成共识。

下面介绍一些分布式系统相关的基础理论，以便于了解分布式系统要解决那些问题。

1.事务的定义

事务分本地事务和跨机事务，这里只讨论跨机事务（又叫分布式事务）。一个分布式事务包含一个或者一组状态，需要同时在一个或者多个分开的节点上更新数据。

事务的四个特性：原子性,一致性,.隔离性,永久性.

事务的原子性：状态要么在所有节点都更新成功，失败或者回滚。事务的一致性：仅仅更新成功还不行，还必须保证更新完成之后不能破坏原有的一致性状态。比如说转账，收款人收到的钱必须与扣款人被扣的钱数一样。事务的隔离性：一个事务的执行不能影响另一个事务的执行。事务的永久性：事务的执行必须是持久的。事务执行完成之后，在t1时间发现它成功了。结果在没有其他事务的作用下，在t2时间去查，发现事务又被回滚了，这是不被允许的。

2.2PC

解决事务通常有2pc或者3pc两种办法。不论是两阶段提交还是三阶段提交，都必须引入一个协调者（coordinator）。原因是必须得有一个节点，能够知道各个执行节点对于该事务的执行结果，成功或者失败，而这个节点就是协调者。协调者负责裁决本次事务执行的最终结果是成功还是失败，并且负责通知给每一个执行节点，这个才是解决事务的最核心的思想，至于2pc或者3pc只是解决问题的方法不一样罢了。

两阶段就是将事务的提交过程分成两个阶段来执行。阶段一：提交事务请求，各个执行节点将事务写入redo日志，但是并不真正执行。阶段二：执行事务请求，根据redo日志做最终的commit或者undo（回滚），执行节点服从协调节点的裁决结果，本文章不讨论3阶段提交。

3.CAP理论

CAP理论（提出者Eric Brewer）是指在网络发生分区的情况下，系统设计者必须考虑要么满足可用性，要么满足一致性，不能同时满足两个。网络上很多对cap理论的解释和说明都是错误的或者令人迷惑的，(文末有推荐的一篇讲解cap的文章)

对于CAP理论需要做下面几点解释

1）一致性：是指顺序一致性，每一个节点必须能够看见一致的最近写入的状态，每一个节点必须能够看到相同的数据状态。

2）可用性：每一个没有死掉的节点，必须能够在合理的时间内处理所有的读写请求。之所以强调在合理的时间内响应，是因为在网络通信的情况下，必然涉及到通信是否成功的问题，而网络慢或者应用处理失败都有可能导致通信失败。调用方就必然要设置一个超时时间，以此来区分成功与否的阀值，不然双方很有可能陷入无限期的等待。

3）分区容忍性：这里的分区指的是网络分区，不是数据分区（分片）。网络分区是指原本是一个系统里面的节点，由于没法正常通信（网络不能分发消息）导致，系统内的节点从网络上形成了分裂的现象。网络分区是不可避免的，是一个分布式系统的设计者必须要去考虑的。为了保证系统正常运行，关键是分区之后该怎么取舍。

网络上有说实现AP的的分布式系统，我觉得这是错误的说法。实现AP的系统实际上就是不考虑网络分区，可是真有100%可靠可信的网络吗？不考虑分区不就是单机系统吗？单机系统还谈什么分布式系统，也就不在cap理论的讨论范畴以内了。

我觉得cap理论最大的贡献在于提醒系统设计者，必须考虑到网络分区之后，该怎么取舍才能保证系统的可用性和一致性的最大化。假如有两个节点组成一个分布式系统，想要保证两个节点之间的一致性，就必须同时写两个节点，两个节点都写成功了才算成功。这就要求两个节点之间必须能够正常通信，但是网络是不可靠的，分区是一种从概率上来讲必须发生的和要考虑的事情。假如网络发生分区了，两个节点之间不能正常通信，怎么办？这个时候如果要确保一致性，那么只能两个节点都不可用，因为没法保证两个节点之间状态的同步。如果要保证可用性，那就让两个节点独自接收请求，这样就没法保证一致性。

4.BASE理论

base理论应该是一个可落地的理论了，是由ebay架构师提出来的（具体是谁我就不知道了）。

basic available
sofe-state
eventual consistency

简单概括是基本可用和最终一致性，这是一种我认为最可落地的解决方案了。对可用性和一致性做了最大化的权衡，既不追求完全的可用性，也不追求强一致性，两者都不走极端，也都不放弃。因为对于很多分布式系统，放弃可用性，是不可接受的。当然对于某些系统，追求强一致性也是可以的，但是追求最终一致性会有更好的性能和扩展性。

5.paxos算法

最早由1990 年由 Leslie Lamport 在论文《The Part-time Parliament》中提出的 Paxos 共识算法。这个论文是出了名的难懂，所以作者在2001年又写了Paxos made simple论文做了更清晰明了的解释。(见文末连接)

还有一个算法叫Raft算法，比paxos 好懂，但是我读完之后感觉差不多。由于下面要着重讨论zookeeper的ZAB协议，而ZAB协议又是基于Paxos协议做了扩展，所以这里就不详细讲解paxos算法了。

6.Zookeeper之ZAB协议

很多分布式系统自身不具备分布式的能力，通常会选择把状态数据通过zookeeper来在集群内协调一致，来间接实现分布式的能力，比如dubbo，haddop等。所以说zookeeper本身应该是一个非常成功的可被用于生产环境的分布式协调者，个人认为它是分布式理论的集大成者也不为过。要想完全理解ZAB协议必须先具备上面了的事务，2pc，cap，base，paxos等理论的基础知识。

官网对zookeeper的定义是：zookeeper是一个维护配置信息，维护名称信息，用作同步锁或者集群管理的中心化服务。这个定义趋向于说明作用，但是其本质是一个协调服务，上面说的哪几项只是具体场景下的应用。官网 https://cwiki.apache.org/confluence/display/ZOOKEEPER/Index

zookeeper起源于雅虎，是Hadoop项目下的子项目，是雅虎工程师根据Google的Chubby论文来实现的。之所以会想起启动这个一个项目，是因为雅虎工程师发现，分布式系统都需要处理集群状态协调一致，容错和可用性的问题。有的服务已经单独实现了，有的服务还未实现。那为什么不把这些能力单独抽象出来，作为独立的一个服务，对外暴露简单的api接口，让其他的分布式系统只专注于自己的业务呢？于是zookeeper项目启动了，zookeeper这个名字起的也挺好，动物园管理员。如果把各个微服务比喻成一个动物（事实上很多开源项目都是以动物命名的），zookeeper可不就是一个动物园管理员嘛。

这里就个人的理解做几点说明：

zookeeper的节点分为leader，follower，observer。所有的写请求都会被路由到leader节点，由leader节点提出提案，和最终提交提案。follower节点具备投票和竞争leader的权利，但是一旦竞争失败服从leader的提案。observer节点是不具备选举和投票权的（群众，属于被代表的哪种），但是它可以用来提高读的吞吐量，因为leader，follower，observer都可以独自的处理读请求。
zookeeper是基于两阶段提交的，即leader先提出议案，广播给所有的节点，当有过半follower响应成功的时候，就通知调用方写入成功，然后再由leader广播给其他的节点。
zookeeper的是顺序一致性并非强一致性，而是最终一致性，因为paxos算法就没有保证强一致性，所以如果写入成功之后，leader挨个通知follower和observer改变状态，那么必然有一个中间状态，各个节点数据是不一致的。所以zookeeper是符合base理论的，即最终一致性，既然最终一致那么必然是基本可用了。
zookeer的数据结构类似于unix的文件系统，是一个树形结构，但是不同的是它的每一个节点（znode）都可以用来存放数据，哪怕这个点有子节点。这就好比说unix的目录也能和文件一样存放数据。所以树形节点的层次，同一层级的节点个数，节点数据的大小等都会影响读写的性能，
zookeeper适用于读多写少的场景，因为zookeeper写入的时候需要过半返回ack，才算写入成功，而且需要落盘，所以性能相对于读来说差很多。而且随着zookeeper的follower节点数据越多，写的性能越差。
zookeeper不适用于存储大量的数据，特别是当网络不太稳定的时候，产生的后果更严重，因为对于分区的节点，如果又恢复了网络通信，这个时候leader会负责同步给这个分区的节点在失去联系期间所有的事务，如果需要同步的事务量比较大，这个也是不小的开销。如果有这种需求，通常只用zookeeper做事件的同步，即数据还是存储各个服务内部，但是利用zookeeper的通知机制来实现各个服务内部状态的一致性，这种用法就是集群管理。
zookeeper有一个事务id（zxid）的概念，每次写请求都会加1，保证唯一。也就是说zookeeper对于每一个写请求都是一个事务，它能够满足原子性，也能满足最终一致性，同时能够满足隔离性，以及持久性。zookeeper对于写请求是能够保证顺序一致的。即两个请求A和B，如果A在B前，那么各个依赖于zookeeper的其他服务节点看到的顺序一定是A在前，B在后。zookeeper的每个znode的变更一定是一个原子操作，即如果想改变znode里面的数据，对于zookeeper来说一定是先删除旧的，再添加新的。所有的节点只能接收比自己本地zxid大的提案，且不能恢复到之前的提案。
zookeeper又一个epoch的概念，是指每次选举之后，这个epoch加1，之所以需要这个，是因为怕由于网络原因，导致leader与follower之间的心跳失败了，让follower以为leader挂掉了，然后follower开始重新选举，选举了新的leader，可是这个时候如果旧的leader又活过来了，怎么办？因为新选举的leader和follower本地的epoch比旧的leader大，不好意思，旧的leader必须得降级为follower了
为什么zookeeper的quorum数量必须要求过半，即假如集群内的数量是2N+1，那么quorum必须得大于N+1。我觉得这有几点考虑。首先是可用性和一致性的平衡。如果quorum是集群内所有的节点，那么一致性是保证了，但是可用性就非常差了，因为只要集群内有一个节点与其他节点失去联系，就意味着必须返回调用方失败，这个是非常不划算的，因为假如集群内有5个节点，挂一个整个集群就不可用，那可用性也太差了。那为什么是N+1呢？为什么不是N呢？我觉得是为了保证最大程度的一致性，同时也能防止脑裂。假设集群内有个6个节点，由于网络分区，分成了两块，每一块各自三个节点。如果quorum是N，那么这两块就都是可用的，会各自选举出一个leader。对于依赖zookeeper的服务来说就会出现两个leader，一致性就失去了。quorum是N+1能够解决这个问题，因为不论怎么分区，都只会形成一个可用分区，最终都只会只有一个leader。
为什么zookeeper集群几点通常是奇数。

T=5，quorum=3>(5/2+1)，那么能够容忍2个失败

T=6，quorum=4(6/2+1)，那么能够容忍2个失败

既然5和6集群的可用性是一样的，那么为什么还要浪费一个节点呢？ 3和4能够容忍失败的节点个数都是1。

二.一个分布式的消息队列需要共享哪些元数据？如何共享这些数据呢？

作为一个pub/sub模式的消息队列，如果是分布式的话，必然有一些数据需要在各个broker之间共享的。

topic信息，因为每个broker都必须知道全量的topic ，以避免在每个broker内部维护了相同的topic
topic下的队列分区信息，因为分布式的消息队列通常是支持横向扩展的。对于集群内加入了一个节点，只意味着，又可以加入加个队列了。所以必须得知道，这个topic的存储队列是分布在集群内部哪几个broker的。比如说集群有5个节点，2个topic，很有可能topicA的存储队列（分区）是在其中3个节点，topicB在另外2个几点。
消息消费者的信息。因为为了减少锁的竞争，以及保证消息的有序性，最好是一个队列只会由一个消息者来消费。这就涉及到到底哪个消费者消费哪个队列的问题了。如果不把消费者的信息集中起来，怎么知道当前有多少个消费者呢？
master-slave或者说leader-follower的管理。分布式系统通常为了实现高可用，会对分区进行备份。为了保证master-slave数据的一致性，通常由master接受写请求，写完以后异步同步给slave.slave通常在master挂了之后节点读请求保证消息不丢。rocketmq就是这么实现的。而leader和follower的模式区别在于，follower其实是能够接受读请求的。follower不仅仅是一个备份的作用，还能起到读负载均衡的作用，kafka就是这么干的。也就是说对一个分区的master-slave的信息是需要共享的。这样才能对写请求和读请求做分发。

如何共享这些数呢？其实最简单的方式就是通过zookeeper，通过zookeeper来做集群管理和元数据存储。用来解决producer，broker，consumer之间的元数据共享，负载均衡，失败容错的问题，上面那些数据放入zookeeper里面存储之后，能起到什么作用呢？

1.producer需要从zookeeper获取topic下的分区（队列）信息，做负载均衡，比如说一个topicA的分区分布在brokera和brokerb上，每个broker4个分区，producer会从这个8个分区里面随机选择一个发送消息。有了新的分区之后，可以选择推送给provider也可以由provider定时来拉取。

2.consumer需要从zookeeper上获取topic下的分区信息，这里面负载均衡可以由broker来做也可以由consumer自己来做，consumer来做的话，需要consumer知道所有的consumer列表和topic下的分区列表，然后分别对这两个列表做排序，每个consumer采用相同的算法选取自己要消费的分区，rocketmq就是这么做的。如果是broker来做，则是根据topic下的分区列表和consumer列表做好负载均衡后推送给consumer。

3.broker的分区高可用如果用的是leader-follower模式，还需要依赖zookeeper的选举功能选举出leader。kafka早期是依赖zookeeper来实现的这个功能，目前是自己实现的一个算法，叫ISR，简单讲就是允许设置一个topic下的每个分区（partition），在写入的时候同时若干个几个replica，只有都写入成功才算成功，这几个replica叫做in-sync-replica，简称ISR，不是ISR的replica是异步写入的，可是这里面同样面临CAP理论提出的问题，这个ISR多少合适呢？假如有5个副本，同时写5个当然数据的可靠性和一致性能保证，可是可用性就太差了（响应时间慢其实也可以叫做可用性差），假如有5个replica，ISR=3，那么在写入的返回给producer成功之后，3个ISR全部挂掉了怎么办？（虽然概率小，但是有可能）这个时候如果保可用性，当然是让另外两个replica接着选举，接着提供服务，但是数据的一致性就没有了，因为这两个副本里面的状态很有可能不是最新的。如果保一致性，那就只能等待ISR里面的某一个重新活过来，可是如果一直都不活过来呢，那么这个分区就全部不可用了，Kafka默认是保一致性，但是支持用户配置保证可用性，也就是说，不论你采用什么算法，终归是要面对cap的，这才是cap理论的最大贡献。所以掌握上面说的那些分布式的基本理论，对于设计一个分布式系统是非常有用的。rocketmq则是自己实现了一个简单的nameserver，不依赖于zookeeper，当然rocktmq其实没有用到选举功能的，因为它是master-slave模式。kafka作为一款开源的非常优秀的分布式消息队列早期就是完全通过zookeeper来做集群管理的。后期为了减少zookeeper的依赖，有一部分功能自己实现了，比如说各个分区的leader-follower算法。

总结一下：一个分布式系统通常都是对数据进行分区（partition）或者分片（shard），然后每个分区或者分片都有其副本。而分区或者分片，leader-follower的信息是需要统一管理的，协调一致的，这个时候就需要一个分布式协调服务来承担这部分工作了。但是对于一个开源的产品，别人在依赖这个开源产品的同时还需要依赖另一个开源产品，这个其实是不太友好的，所以很多分布式系统都选择自己是实现类似zookeeper的功能，比如redis，mongodb他们也有分片和副本的概念，但是却并没有依赖一个类似zookeeper这样的协调服务，而是自己内部实现了一套这个逻辑。比如说kafka，就是使用kafka的应用在依赖Kafka的同时，还需要依赖zookeeper，对rocketmq来说则是必须依赖nameserver。但是这里有一些共性的东西就是，不论是依赖zookeeper还是自己实现类似的功能，都必须得有一个协调者（coordinator）这个角色，同时也必须要解决，分布式系统共有的问题，cap，base，事务，高可用，横向扩展，数据可靠性等问题。

三.怎么定义可靠？为了达到可靠，需要解决哪些问题？

消息队列作为堆积和分发消息的一个系统，首要保证就是消息的可靠性。简单讲就是消息不能丢，不能重的问题。那么如何保证消息不丢呢？

消息从producer到broker，这个过程中，可以选择同步也可以异步，同步和异步都可以做重试，也都需要broker返回ack。但是同步相对异步的好处是，同步的话调用方能够里面知道结果，失败了调用方能够立即知道，也就是把失败的情况的处理任务交给了调用方，比如下单，如果是同步，可以直接返回给用户下单失败，请稍后重试等。异步的话，通常是把消息发给了消息队列client（嵌入到了producer进程里面）里面的一个buffer缓存起来，由client异步发送给broker。但是这里确实是有可能丢消息的，比如这个时候producer挂了，或者buffer满了呢。也就是同步相对于异步来说更能保证消息的可靠性，特别是在配置了同步双写或者同步多写的情况下（写入replica或者slave）但是有可能会阻塞应用的线程，所以同步双写可以保证消息投递过程中的可靠性。
broker 拿到消息之后，如果是立即把消息放入磁盘，肯定消息的可靠性就会高很多，但是考虑到性能（可用性）通常不这么做，通常是把消息写入OS pagecache里面，再定时flush到磁盘，因为这样能够避免很多小数据量的IO/write，而且能够保证顺序写，很多存储系统都利用了pagecache来提升读写的性能，但是假如在数据还没有flush到磁盘之前，进程死掉了或者停电了怎么办？这部分数据就丢掉了，所以如果想保证数据的绝对可保，同步刷盘可以保证存储过程中的消息的可靠性。
consumer从broker拉取消息消费。这里面假如consumer从broker拉取消息之后，broker就把消息删掉了，但是broker又消费失败了，那么消息就丢掉了，所以consumer从broker拉取完消息之后需要给broker一个ack，可是仅仅消息到了成功到了consumer端就行了吗？还有可能消息已经到了consumer，但是consumer消费失败，这个时候就需要把消息再次投递到broker，后面进行重试。所以consumer还得告诉broker这个消息被成功消费了，broker才能删除这个消息。kafka和rocketmq都支持回溯消息，也就是哪怕你告诉我成功消费了这个消息我也不删除，直到用户主动删除，或者到了约定的存储时间，或者磁盘空间不足了。通过这两个过程保证了，消费过程中的消息的可靠性。

总结一下：通过同步双写---->同步刷盘----->消费重试的机制可以最大程度的保证消息的可靠性。

至于保证消息不重，我一直的观点都是，这个在分布式，并发情况下，真的很难实现。比如说，同步投递给broker的过程中，假如某个broker处理超时了，但是其实还是把消息存储下来了，这个时候client肯定会进行重试，一旦重试很有可能请求到了另外一台broker，那么另外一台broker也存储了相同的消息，这个时候就会重复了。

这篇文章并没有讨论一个消息队列的具体的实现方式，只是讨论了设计一个可靠的分布式消息队列需要解决的问题，但是对于理解kafka和rocketmq等成熟的消息队列的设计思想是有帮助的。

1.分布式系统定义

http://www.hpcs.cs.tsukuba.ac.jp/~tatebe/lecture/h23/dsys/dsd-tutorial.html ）

2.事务定义

https://docs.oracle.com/cd/B28359_01/server.111/b28310/ds_txns001.htm#ADMIN12213 oracle官方文档

3.cap

https://dzone.com/articles/understanding-the-cap-theorem

4.Paxos made simple

https://lamport.azurewebsites.net/pubs/paxos-simple.pdf

5.zab

https://www.datadoghq.com/pdf/zab.totally-ordered-broadcast-protocol.2008.pdf

以上是关于如何设计一个可靠的分布式消息队列？的主要内容，如果未能解决你的问题，请参考以下文章