Fluent-bit - 将 json 日志拆分为 Elasticsearch 中的结构化字段
Posted
技术标签:
【中文标题】Fluent-bit - 将 json 日志拆分为 Elasticsearch 中的结构化字段【英文标题】:Fluent-bit - Splitting json log into structured fields in Elasticsearch 【发布时间】:2019-11-12 11:15:53 【问题描述】:我正在尝试在 Fluent-bit 配置中找到一种方法来告诉/强制 ES 存储纯 json 格式的日志(下面的 log 位来自 docker stdout/stderror em>) 以结构化的方式 - 请参阅底部的图像以获得更好的解释。例如,除了(或同时)将日志存储为 log
字段下的普通 json 条目之外,我还想单独存储每个属性,如 red 所示。
过滤器和解析器的文档真的很差而且不清楚。除此之外,forward
输入没有“解析器”选项。我尝试了json/docker/regex
解析器,但没有运气。如果我必须使用正则表达式,我的正则表达式是 here。目前使用 ES (7.1)、Fluent-bit (1.1.3) 和 Kibana (7.1) - 而不是 Kubernetes。
如果有人能指导我举一个例子或给出一个例子,我将不胜感激。
谢谢
"_index": "hello",
"_type": "logs",
"_id": "T631e2sBChSKEuJw-HO4",
"_version": 1,
"_score": null,
"_source":
"@timestamp": "2019-06-21T21:34:02.000Z",
"tag": "php",
"container_id": "53154cf4d4e8d7ecf31bdb6bc4a25fdf2f37156edc6b859ba0ddfa9c0ab1715b",
"container_name": "/hello_php_1",
"source": "stderr",
"log": "\"time_local\":\"2019-06-21T21:34:02+0000\",\"client_ip\":\"-\",\"remote_addr\":\"192.168.192.3\",\"remote_user\":\"\",\"request\":\"GET / HTTP/1.1\",\"status\":\"200\",\"body_bytes_sent\":\"0\",\"request_time\":\"0.001\",\"http_referrer\":\"-\",\"http_user_agent\":\"curl/7.38.0\",\"request_id\":\"91835d61520d289952b7e9b8f658e64f\""
,
"fields":
"@timestamp": [
"2019-06-21T21:34:02.000Z"
]
,
"sort": [
1561152842000
]
谢谢
配置
[SERVICE]
Flush 5
Daemon Off
Log_Level debug
Parsers_File parsers.conf
[INPUT]
Name forward
Listen 0.0.0.0
Port 24224
[OUTPUT]
Name es
Match hello_*
Host elasticsearch
Port 9200
Index hello
Type logs
Include_Tag_Key On
Tag_Key tag
【问题讨论】:
【参考方案1】:解决方法如下。
[SERVICE]
Flush 5
Daemon Off
Log_Level debug
Parsers_File parsers.conf
[INPUT]
Name forward
storage.type filesystem
Listen my_fluent_bit_service
Port 24224
[FILTER]
Name parser
Parser docker
Match hello_*
Key_Name log
Reserve_Data On
Preserve_Key On
[OUTPUT]
Name es
Host my_elasticsearch_service
Port 9200
Match hello_*
Index hello
Type logs
Include_Tag_Key On
Tag_Key tag
[PARSER]
Name docker
Format json
Time_Key time
Time_Format %Y-%m-%dT%H:%M:%S.%L
Time_Keep On
# Command | Decoder | Field | Optional Action
# =============|==================|=================
Decode_Field_As escaped_utf8 log do_next
Decode_Field_As json log
【讨论】:
非常感谢您的回答。文档简直太可怕了。一个问题:您的log
条目最终是如何解码的?我得到一行 key=value(例如name=john age=27 city=paris
)而不是解码结构(它不再是 JSON 字符串,但也不是 Kibana 可见的结构)
不确定我是否理解您的确切意思,但我的应用程序日志默认为 JSON 格式。因此,如果是我的应用程序,您的示例将是 "name":"john","age":"27","city":"paris"
。之后,整个字符串在 Kibana 中的 log
键下也看起来相同,如上图所示。我希望它有所帮助。还可以查看this 以获得更详细的示例。
抱歉没有说清楚。我曾经在我的日志中将"name":"john","age":"27","city":"paris"
作为message
条目,由 Kibana 显示。我希望这个条目可以被 Fluent Bit 解码,以便它作为一个真正的 JSON 条目进入 Elasticsearch,这样我就可以将键 name
、age
和 city
作为字段(与你的入口tag
或source
。
(续)我所拥有的仍然是 message
条目,现在是 name=john age=27 city=paris
(而不是之前的 JSON 字符串表示形式)。我想知道这是否是预期的行为(这使得解码器无用,因为我无法搜索键 city
例如)
换句话说,message
下的条目已经从字符串"name":"john","age":"27","city":"paris"
重写为字符串name=john age=27 city=paris
,这不是我期望的解析(→ 以“分解”JSON 字符串到 Kibana 的实际字段中)【参考方案2】:
您可以为此使用 Fluent Bit Nest 过滤器,请参阅以下文档:
https://docs.fluentbit.io/manual/filter/nest
【讨论】:
OP - “过滤器和解析器的文档真的很差而且不清楚。”。我在文档上花了足够多的时间,因此原因最终得到了这个问题。 文档极度缺乏以上是关于Fluent-bit - 将 json 日志拆分为 Elasticsearch 中的结构化字段的主要内容,如果未能解决你的问题,请参考以下文章