kafka日志回收的详解及使用

Posted 未来在这儿

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kafka日志回收的详解及使用相关的知识,希望对你有一定的参考价值。


 

 分析记录一次线上问题

发现磁盘使用率极速飙升,接近100%。程序存在异常退出现象。

现象

  • 磁盘使用率告警 磁盘基本占满,上有持续写入
  • Kafka/Zk服务挂掉。

Topic的清理策略

cleanup.policy: delete

kafka log的清理策略有两种:delete,compact, 默认是delete

DUMP文件

kafka-topics --bootstrap-server broker:9092 --topic topicname --describe
Topic:xxx  PartitionCount:3        ReplicationFactor:3     Configs:min.insync.replicas=1,segment.bytes=1073741824,retention.ms=14400000,max.message.bytes=10485760,min.cleanable.dirty.ratio=0.5,unclean.leader.election.enable=false,retention.bytes=-1,delete.retention.ms=604800000

三分区,三副本,保留4小时,初步定位到是由于上有大量写入。

更改保留时间

修复方式见下文:

kafka-topics --bootstrap-server broker:9092 --topic topicname --config retention.ms=3600000 

问题分析

概述

log.retention.check.interval.ms  = 300000 【5min】
kafka时间戳的作用

基于时间戳的日志切分策略
基于时间戳的日志清除策略
根据时间戳来定位消息:之前的索引文件是根据offset信息的,从逻辑语义上并不方便使用,引入了时间戳之后,Kafka支持根据时间戳来查找定位消息

kafka 参数

message.timestamp.type: 定义消息中的时间戳是消息创建时间还是日志附加时间。

值应该是“CreateTime”或“LogAppendTime”, 默认为:CreateTime

  • LogAppendTime

        为 ingestion-time 不可以自定义指定时间,系统自动生成当前producer时间

  • CreateTime event-time

        可以自定义自定timestamp,如果不指定则默认为系统自动生成当前producer时间,即LogAppendTime时间

因为上游数据大幅写入。数据回滚操作频繁导致磁盘使用率超高,先停止上有写入kafka程序,再修改释放相关磁盘资源。启用zk服务,启用kafka服务,启用上游写入Kafka程序即可。因为存在多副本。可以进行部分分区数据删除操作。

参考:

kafka时间戳的详解及使用

Kafka日志清理策略,compact和delete

Kafka中数据清理、日志压缩、日志删除、保留策略

filebeat采集日志到kafka配置及使用

参考技术A Filebeat是elastic公司beats系列工具中的一个,主要用于收集本地日志。
在服务器上安装后,filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读),并且转发这些信息到配置文件中指定的输出端(例如:elasticsearch,logstarsh或kafka)。

Filebeat使用go语言开发,使用时没有其他依赖,比logstash-forworder轻量,不会占用部署服务器太多的资源。

filebeat的工作流程:当你开启filebeat程序的时候,它会启动一个或多个探测器(prospectors)去检测你指定的日志目录或文件,对于探测器找出的每一个日志文件,filebeat启动收割进程(harvester),每一个收割进程读取一个日志文件的新内容,并发送这些新的日志数据到处理程序(spooler),处理程序会集合这些事件,最后filebeat会发送集合的数据到你指定的地点。

2.配置filebeat
配置filebeat需要编辑filebeat的配置文件,不同安装方式,配置文件的存放路径有一些不同, 对于 rpm 和 deb的方式, 配置文件路径的是 /etc/filebeat/filebeat.yml,对于压缩包的方式,配置文件存在在解压目录下(例如:我是在home目录下进行的解压,那么配置文件的路径就应该是~/filebeat-6.2.4-linux-x86_64/filebeat.yml)。

由于我的预期目标是将filebeat收集的日志发送到kafka,所以配置output就选择了kafka。读者可根据自己的使用场景,配置output。

例子中的配置将对/var/log目录下所有以.log结尾的文件进行采集。

3.启动

本文中只是为满足需求对filebeat进行了最基本的配置。filebeat的很多重要的配置和特性并没有体现(例如:模块,多行消息),读者如果需要更深入的了解请参考: https://www.elastic.co/guide/en/beats/filebeat/current/configuring-howto-filebeat.html 。
欢迎大家在评论区讨论使用过程的心得和疑惑。

以上是关于kafka日志回收的详解及使用的主要内容,如果未能解决你的问题,请参考以下文章

Kafka日志存储详解

Java面试官最爱问的垃圾回收机制,java语言自学教程

Kafka原理及单机部署

graylog+kafka+zookeeper(单机测试及源码),微服务日志查询使用(七)

Kafka核心概念详解

Kafka日志及Topic数据清理