json文档缺少字段的Avro序列化问题

Posted

技术标签:

【中文标题】json文档缺少字段的Avro序列化问题【英文标题】:Trouble with Avro serialization of json documents missing fields 【发布时间】:2016-06-17 03:09:38 【问题描述】:

我正在尝试使用 Apache Avro 对从 Elastic Search 导出到 HDFS 中的许多 Avro 文档中的数据强制实施模式(使用 Drill 进行查询)。我在使用 Avro 默认设置时遇到了一些问题

鉴于此架构:

    
  "namespace" : "avrotest",    
  "type" : "record",    
  "name" : "people",                                                                                                   
  "fields" : [                                                                                                         
    "name" : "firstname", "type" : "string",                                                                        
    "name" : "age", "type" :"int", "default": -1                                                                     
  ]                                                                                                                    
 

我希望像 "firstname" : "Jane" 这样的 json 文档将使用年龄字段的默认值 -1 进行序列化。

default:该字段的默认值,在读取实例时使用 缺少此字段(可选)。

然而,这似乎并没有发生

java -jar avro-tools-1.8.0.jar fromjson --schema-file p2.avsc jane.json > jane.avro

Exception in thread "main" org.apache.avro.AvroTypeException: Expected int. Got END_OBJECT
    at org.apache.avro.io.JsonDecoder.error(JsonDecoder.java:697)
    at org.apache.avro.io.JsonDecoder.readInt(JsonDecoder.java:172)
    at org.apache.avro.io.ValidatingDecoder.readInt(ValidatingDecoder.java:83)
    at org.apache.avro.generic.GenericDatumReader.readInt(GenericDatumReader.java:511)
    at org.apache.avro.generic.GenericDatumReader.readWithoutConversion(GenericDatumReader.java:182)
    at org.apache.avro.generic.GenericDatumReader.read(GenericDatumReader.java:152)
    at org.apache.avro.generic.GenericDatumReader.readField(GenericDatumReader.java:240)
    at org.apache.avro.generic.GenericDatumReader.readRecord(GenericDatumReader.java:230)
    at org.apache.avro.generic.GenericDatumReader.readWithoutConversion(GenericDatumReader.java:174)
    at org.apache.avro.generic.GenericDatumReader.read(GenericDatumReader.java:152)
    at org.apache.avro.generic.GenericDatumReader.read(GenericDatumReader.java:144)
    at org.apache.avro.tool.DataFileWriteTool.run(DataFileWriteTool.java:99)
    at org.apache.avro.tool.Main.run(Main.java:87)
    at org.apache.avro.tool.Main.main(Main.java:76)

这可能吗,还是我错过了什么?

【问题讨论】:

我也有同样的问题 是的,告诉我吧:( 看起来在此提交之前github.com/apache/avro/commit/… (issues.apache.org/jira/browse/AVRO-388) Avro GenericDatumReader 能够对跳过的字段使用默认值,但现在不能这样做了。 【参考方案1】:

关键是,如果您在架构中这样声明您的字段:

"name": "fieldName", "type": ["int", "null"], default: null 

使用 optional 之类的字段是不够的,尝试这样声明:

"name": "fieldName", "type": ["null", "int"], default: null 

【讨论】:

以上是关于json文档缺少字段的Avro序列化问题的主要内容,如果未能解决你的问题,请参考以下文章

如何使用来自 Kafka 的 Python 解码/反序列化 Avro

JSON与AVRO数据文件的相互转换

使用 PySpark 将 csv 转换为 .avro - 缺少依赖项

由于错误的模式类型(JSON 而不是 AVRO),Pulsar 函数无法反序列化消息

反序列化 Avro Spark

联合字段的 Avro 无效默认值