消息队列之kafka(HA)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了消息队列之kafka(HA)相关的知识,希望对你有一定的参考价值。

1. kafka的HA

技术分享图片

(1)zookeeper在kafka中的作用:

   - Zookeeper帮助kafka集群运行:存储一些元数据,还会帮助kafka集群进行管理(选主)
   - 存储关于消费者消费了哪些topic到那个进度的数据。

(2)kafka HA解决的问题:

   存在的问题:kafka在0.8以前的版本中,并不提供high available机制,一旦一个或者多个broker宕机,则宕机期间其上的partition都无法继续提供服务。若该broker永远不能回复或磁盘故障,则其上数据丢失。但是对于分布式来说尤其是集群上升到一定规模,一台或者多台机器宕机的可能性大大提高,对failover要求非常高。因此kafka开始在0.8版本以后提供高可用机制。
   解决的问题:Kafka的HA就是在数据层面上,即丢失一份数据,Consumer仍然可以正常消费(也表示一个broker宕机了,其上面的数据不会丢失)。
  解决的方案:使用replication(副本,对同一个数据进行数据备份)。其中副本之间有主副本和从副本之分(由zookeeper选出),每一个broker都会存储一些主副本,保证kafka集群的负载均衡。

(3)kafka HA写数据的流程:

   - 使用zookeeper给多个副本的broker进行选主,选出一个leader
    这个leader相当于zookeeper中的一个临时节点,如果leader宕机之后,zookeeper会再次选主,如果ISR列表中所有的follower都宕机了,此时会等待,等待ISR列表有一个follower重新可以使用的时候,这是就将这个follower变成leader。(ISR是kafka在zookeeper中维护的一个可使用的集群节点列表)
   - 在进行写数据的时候,首先向leader写入数据(主副本)
   - 其他的broker(follower)到leader中fetch数据(从副本)
   - 数据抓取完成后,会向leader返回(ack)信息
解释 :在leader中会维护一个ISR(同步副本的列表),列表中存放的是所有的有效的follwer, 在这个列表中如果follower的数据和leader的数据落后太多的话(默认是4000条数据)或者一定时间没有向leader发送fetch请求(默认是10秒),这时候会自动的将这个follwer剔除这个ISR列表中,在这个ISR列表中,每一个follower进行fetch完成数据,就会向leader发送数据,最终leader如果接受到所有的follower反馈,然后向producer进行反馈,发送ACK。
其中ACK表示Producer写入数据的返回级别:

    0 表示只要producer发送数据,就表示写数据成功
    1 表示只要leader写入成功,就表示写数据成功
    all /-1 表示所有的副本写成功,才认为数据写入成功

以上是关于消息队列之kafka(HA)的主要内容,如果未能解决你的问题,请参考以下文章

消息队列之zeroMQ、rabbitMQ、kafka

消息队列MQ 之 Kafka

消息队列之Kafka从入门到小牛

从Hadoop HA到Zookeeper到Kafka(了解篇)

从Hadoop HA到Zookeeper到Kafka(了解篇)

SpringBoot开发案例之整合Kafka实现消息队列