kafka文件存储结构和如何保证数据不丢失

Posted parent-absent-son

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kafka文件存储结构和如何保证数据不丢失相关的知识,希望对你有一定的参考价值。

一: kafka文件组成

基本组成:

1- broker 节点,多个broker构成一个集群

2- topic 对消息进行归类

3- producer 生产者

4- comsumer 消费者

5- consumerGroup 消费组

topic的组成:

1- partition  物理上数据存储的概念,一个topic包含多个partition,每个partition内部是有序的;每个partition是一个目录;

2- segment  一个partition包含多个segment,包含两种文件.index和.log。

这两个文件的命令规则为:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值,数值大小为64位,20位数字字符长度,没有数字用0填充,如下:

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

index索引文件存储大量的元数据,log数据文件存储大量的消息。

partition内部读取数据的流程为(例如读取offset=170418的消息):

1- 首先查找segment文件。确认数据存储在00000000000000170410.index和00000000000000170410.log这两个文件中。

2- 到index文件中查找,log数据存贮的位置信息。

3- 从log日志中读取所需日志信息。

 

二:数据可靠性和持久性保证

1- producer端

request.required.acks参数进行配置,可靠性级别为:

1(默认) producer写到kafka中,收到leader的反馈信息后,下确认其写入成功。leader宕机,会丢失数据。

0 producer端不会收到任何的反馈信息,数据可靠性很低。

-1 producer端需要确认leader和follower都反馈成功,才认为写入成功。和min.insync.replicas参数(最小同步副本数,必须大于等于2)一起使用。利用副本冗余信息来确保数据不会丢失。但是可以会重复传输。

2- comsumer端

producer.type=sync一定要设置成同步的方式。

consumer先读取消息并处理,在commit。这种方式可以保证至少一次;

consumer 先读取消息,再commit,在处理,这种方式会丢失数据;

3- 自定义实现,缓存消息去重

 Consumer保持无状态和幂等性就可以了

以上是关于kafka文件存储结构和如何保证数据不丢失的主要内容,如果未能解决你的问题,请参考以下文章

2021年大数据Kafka:Kafka如何保证数据不丢失

zookeeper怎么实现分布式锁

Kafka 如何保证数据不丢失?不重复?

Kafka 如何保证数据的不重复和不丢失

[转帖]kafka 如何保证数据不丢失

Kafka如何保证百万级写入速度 并 保证不丢失不重复消费