logstash切割日志,分隔符是中文逗号解析不了怎么办?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了logstash切割日志,分隔符是中文逗号解析不了怎么办?相关的知识,希望对你有一定的参考价值。

logstash切割日志,分隔符是中文逗号解析不了怎么办?

参考技术A 通常日志管理是逐渐崩溃的——当日志对于人们最重要的时候,也就是出现问题的时候,这个渐进的过程就开始了。日志管理一般会经历一下3个阶段:
初级管理员将通过一些传统工具(如cat、tail、sed、awk、perl以及grep)对日志进行检查,但它的适用范围仅限于少量的主机和日志文件类型;
考虑到现实中的可扩展性问题,日志管理也会逐步进化,使用如rsyslog和syslog-ng这样的工具进行集中化的管理;
当日志信息越来越大的时候,从快速增长的日志数据流中提取出所需的信息,并将其与其他相关联的事件进行关联,将变得越加困难,此时LogStash就提供了一个很好的解决方案
参考技术B 我是来水经验

Logstash的filter插件-Grok

一、介绍

Grok是一种将非结构化日志数据解析为结构化和可查询数据的好方法。

这个工具非常适合于syslog日志、apache和其他web服务器日志、mysql日志,以及通常为人类而不是计算机使用编写的任何日志格式。

二、选择

Grok or Dissect?还是两者兼有?

dissect filter插件是使用分隔符将非结构化事件数据提取到字段中的另一种方法。

Dissect与Grok的不同之处在于它不使用正则表达式,而且速度更快。当数据可靠地重复时,Dissect工作得很好。当文本的结构因行而异时,Grok是一个更好的选择。

当行的一部分可靠地重复,但整行没有重复时,您可以对混合用例使用Dissect和Grok。分离过滤器可以解构重复的线段。Grok过滤器可以处理剩余的字段值,具有更大的regex可预测性。

三、Grok 基础

Grok的工作原理是将文本模式组合成与日志匹配的内容。

grok模式的语法: %{SYNTAX:SEMANTIC}

SYNTAX 是与文本匹配的模式的名称。例如,3.44将由 NUMBER 模式匹配,55.3.244.1将由 IP 模式匹配。

SEMANTIC (语义)是您为匹配的文本段指定的标识符(可理解为字段名称)。例如,3.44可以是一个事件的持续时间,因此可以简单地称之为 duration。此外,字符串55.3.244.1可能标识发出请求的 client

对于上面的示例,grok过滤器如下所示:

%{NUMBER:duration} %{IP:client}

您可以选择向 grok 模式添加数据类型转换。默认情况下,所有语义都保存为字符串。如果您希望转换语义的数据类型,例如,将字符串更改为整数,然后用目标数据类型作为后缀。例如 %{NUMBER:num:int} 它将 num 语义从字符串转换为整数。目前唯一支持的转换是 intfloat

使用语义和语法,我们可以从一个示例日志中提取有用的字段,如下面这个虚构的http请求日志:

55.3.244.1 GET /index.html 15824 0.043

其模式可能是:

%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}

更现实的例子是,让我们从文件中读取以下日志:

    input {
      file {
        path => "/var/log/http.log"
      }
    }
    filter {
      grok {
        match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
      }
    }

在grok过滤器之后,事件中会有几个额外的字段:

  • client: 55.3.244.1
  • method: GET
  • request: /index.html
  • bytes: 15824
  • duration: 0.043

四、正则表达式

Grok位于正则表达式之上,因此任何正则表达式在Grok中都是有效的。正则表达式库是Oniguruma,您可以在 Oniguruma站点上看到完全支持的regexp语法。

五、自定义模式

有时候logstash没有你需要的模式。为此,你有几个选择。

1 首先,可以使用Oniguruma语法对捕获到的内容命名,这样可以匹配一段文本并将其保存为字段:

(?<field_name>the pattern here)

例如,日志的后缀 队列 id 的值为10或11个字符的十六进制。我可以这样轻松地捕捉到:

(?<queue_id>[0-9A-F]{10,11})

一个实际的示例如下

input { stdin {}}

filter {
   grok {
     match => {"message" => "(?<queue_id>[0-9A-F]{10,11})" }
   }
}

output { stdout {}}

在终端输入 BEF25A72965

会看到如下输出

{
      "@version" => "1",
          "host" => "es03",
      "queue_id" => "BEF25A72965",
       "message" => "BEF25A72965",
    "@timestamp" => 2021-06-07T13:54:19.661Z
}`

2 或者,您可以创建一个自定义模式文件。

创建一个名为patterns的目录,其中包含一个名为 postfix 的文件(文件名无关紧要,但要为自己命名)

在该文件中,编写所需的模式,作为模式名称、空格,然后是该模式的regexp。

例如,如上所述执行postfix queue id示例:

    # ./patterns/postfix 的内容:
    POSTFIX_QUEUEID [0-9A-F]{10,11}

然后使用这个插件中的 patterns_dir 设置告诉logstash你的自定义patterns目录在哪里。下面是一个完整的示例和一个示例日志:

    Jan  1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>
    filter {
      grok {
        patterns_dir => ["./patterns"]
        match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }
      }
    }

以上内容将匹配并产生以下字段:

  • timestamp: Jan 1 06:25:43
  • logsource: mailserver14
  • program: postfix/cleanup
  • pid: 21403
  • queue_id: BEF25A72965
  • syslog_message: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>

六、关于匹配的细节

[root@es03 logstash]# cat testgrok-dir.conf
input { stdin {}}

filter {
   grok {
     patterns_dir => ["./patterns"]
     match => {"message" => "%{POSTFIX_QUEUEID:queue_id}:" }
   }
}

output { stdout {}}

在这里插入图片描述

以上是关于logstash切割日志,分隔符是中文逗号解析不了怎么办?的主要内容,如果未能解决你的问题,请参考以下文章

logstash 2.2以上版本,nginx 错误日志切割

Logstash的filter插件-Grok

es 无日志,logstash 报错

logstash收集日志,多台机器,必须要多台机器安装部署吗

Kibana+Logstash+Elasticsearch 日志查询系统

解析 Nginx 日志时的 Logstash _grokparsefailure