Logstash 时区问题导至数据被写进错误的 ES 索引的解决方法

Posted 2023-03-26

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Logstash 时区问题导至数据被写进错误的 ES 索引的解决方法相关的知识，希望对你有一定的参考价值。

参考技术A

在上篇: .NET 的 ELK 监控方案里, 我们将 Logstash 的配置节点 output 这样写:

logstash 会自动从数据中找到 i 这个字段, 并结合 @timestamp 来指定这条数据到要写到哪个 index 下面去.
如果配置中没有指定 @timestamp 从哪里取值, logstash 会默认把第一次读到取这条数据时间做为 @timestamp .

但是请注意, logstash 使用的是 UTC 时间. 这个地方将会引发标题所描述的问题.

比如, 当前时间是 2018-08-17T00:29:59.618+08:00 , 转换为 UTC 时间就成了 2018-08-16T16:29:59.618Z
Logstash 把这个 UTC 时间用来确定数据该存到哪个 Index 里面, 这就导至了本来是 8月17日的数据, 却被写到 8月16 日的索引下面去了.

如果只是用 Kibana 做为可视化工具, 问题不大.
但是我们每天大概能收集到 100G的日志, 搜索条件多样化 , 在加上对语法不熟悉, Kibana 已经不能给我们提供便捷的使用体验了.
但是对自制的查询工具而言, 又不能跨 index 查询(有重复的日志), 所以这个问题被无限放大了.

要解决这个问题, 又不能作大规模的改动, 最好的办法就是看有什么方法把 @timestamp 用中国时间来表示.
从百度上找了两篇文章, 说用 date filter 来修改时区, 但是写到 es 里的 @timestamp 依然是 UTC 时间, 估计也是行不通, 就没有继续在上面尝试.

和之前的配置比起来, 这个新配置多了一个节点: filter
用 ruby 脚本把事件的 timestamp 的本地时间赋值给 index_day (这个 index_day 并不存在于原始的日志数据中),
然后在 output 节点的 index 中使用这个 index_day. 这样一来每天8点之前的日志就会写到正确的 index 中了.

不过, 每天结束的那几分钟产生的日志有可能会被写到下一天的索引里去..

TimeZone 配置参见 Date Filter , logstash 将日志北京时间保存成utc
Filter Ruby 参见, Logstash Filter Ruby , 不要问我, 我也不会
Output elashtic Index 配置参见 Elasticsearch output plugin

以上是关于Logstash 时区问题导至数据被写进错误的 ES 索引的解决方法的主要内容，如果未能解决你的问题，请参考以下文章

Logstash：如何在日期过滤器模式中匹配时区 ID“CET”？

logstash 读取MySQL数据到elasticsearch 相差8小时解决办法

linux下时间的修改

Elasticsearch 滞后8个小时等时区问题，一网打尽！

PostgreSQL 错误地从没有时区的时间戳转换为有时区的时间戳