json logstash 解析失败 ctrl-code 1

Posted 2020-10-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了json logstash 解析失败 ctrl-code 1相关的知识，希望对你有一定的参考价值。

"问题：
从windows 通过flume传输到kafka的日志（GBK），然后再logstash 消费，用json 解析。有些日志解析报错：ctrl-code 1(SOH 文本头)。
分析：
在终端上用gbk编码查看会有方框的字符，可以判断该字符就是json 无法识别的控制字符（SOH）。
但是不知道kafka消费的时候显示成什么字符，如果知道这个（SOH）然后替换成，json 可以解析的字符就可以了。

解决办法：
在日志里发现每一个（SOH）处，都显示为\u0001,这是16进制的ascll code 1。和控制字符的code1也是对应的，断定（SOH)被解析成\u0001这个字符。
input kafka中之前都是直接codec => json{charset =>[""GBK""]},相当于在消费的时候先进行json 解析，这样很无力，一直报错。

换个思路：
1，先无格式plain消费，然后把SOH(\u0001)
2，替换成空格（因为soh无意义，替换成空格不影响源信息）gsub =>["message","\u0001"," "]，
3，再用 json {source => ""message""} 进行解析，这样就可以了。
--------------------------配置信息---------------------------------
input {
kafka {
bootstrap_servers => ""ZBSZ1-LOG-KFK01:9092,ZBSZ1-LOG-KFK02:9092,ZBSZ1-LOG-KFK03:9092""
group_id => ""es-rzrqbp02""
topics_pattern => ""rzrqbp-C010001""
value_deserializer_class => ""org.apache.kafka.common.serialization.ByteArrayDeserializer"" #源字节编码转换器，因为一直以GBK编码传输
codec => plain{charset => [""GBK""]}
#codec => json
}
}
filter {
mutate {
convert => { ""[indicator][usedtime]"" => ""integer"" }
gsub =>[""message"",""\u0001"","" ""]
}
json {
source => ""message""
}
date {
match => [""[time_stamp]"",""UNIX_MS""]
target => ""@timestamp""
}

}

output {
elasticsearch {
hosts => [""ZBSZ1-LOG-ES01:9200"", ""ZBSZ1-LOG-ES02:9200"", ""ZBSZ1-LOG-ES03:9200""]
index => ""app-rzrqbp-%{+YYYY.MM.dd}""
document_id => ""%{[indicator][msgid]}""
}

}
"
技术分享图片

以上是关于json logstash 解析失败 ctrl-code 1的主要内容，如果未能解决你的问题，请参考以下文章

logstash解析嵌套json格式数据

Logstash：如何使用 Logstash 解析并摄入 JSON 数据到 Elasticsearch

Logstash 解析Json字符串，删除json嵌套字段

在logstash中使用grok模式解析我的json文件？