Kafka日志及索引文件

Posted 绝世好阿狸

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Kafka日志及索引文件相关的知识,希望对你有一定的参考价值。

每一个分区一个文件夹,一个分区对应多个文件。当满足一定条件后,会生成新的文件。每一个文件叫做一个日志段,每一个日志段会关联两个索引文件,一个是偏移量索引另一个是时间戳索引。日志段以本日志内的第一条消息的偏移量命名。段内的日志偏移量是相对偏移量。

一个分区只有最新的日志段是可写的,其余的都是只读。

 

索引文件:并非每一条消息都对应一个索引项,而是积累到一定数量后,插入一条索引项。

1.偏移量:按照偏移量排序,存放的是偏移量到物理位置,查找时二分法查找。

2.时间偏移量:按照时间戳排序,查找时二分法查找。当然还需要再通过偏移量索引查找一次。

 

日志段分割的时机

1.日志文件大小;

2.日志文件最大最小时间戳大于一个阈值;

3.日志文件最大最小偏移量大于一个阈值;

4.索引文件大小大于一个阈值;

 

偏移量索引

来一个示意图:

具体如何查找?使用二分法查找index文件,定位到position,再从position开始的batch里顺序查找。

当然这里是已知索引文件的情况下的过程,那么如何定位到索引文件?kafka在内存中使用跳表结构存储所有的索引文件名(理论上二分也行)。

 

时间戳索引

时间戳索引没有存物理位置而是存了偏移量,所以定位消息时,还得再查询一次偏移量索引。

(注:图片均来自掘金小册

以上是关于Kafka日志及索引文件的主要内容,如果未能解决你的问题,请参考以下文章

kafka-Message日志和索引文件消费组rebalance

Kafka源码解析---LogSegment以及Log初始化

Kafka源码解析---LogSegment以及Log初始化

Kafka中的索引机制

filebeat采集日志到kafka配置及使用

Kafka中改进的二分查找算法