有没有办法以编程方式将 JSON 转换为 AVRO Schema?
Posted
技术标签:
【中文标题】有没有办法以编程方式将 JSON 转换为 AVRO Schema?【英文标题】:Is there a way to programmatically convert JSON to AVRO Schema? 【发布时间】:2018-03-15 08:38:59 【问题描述】:我需要创建 AVRO 文件,但为此我需要两件事:
1) JSON
2) Avro 架构
根据这 2 个要求 - 我有 JSON:
"web-app":
"servlet": [
"servlet-name": "cofaxCDS",
"servlet-class": "org.cofax.cds.CDSServlet",
"init-param":
"configGlossary:installationAt": "Philadelphia, PA",
"configGlossary:adminEmail": "ksm@pobox.com",
"configGlossary:poweredBy": "Cofax",
"configGlossary:poweredByIcon": "/images/cofax.gif",
"configGlossary:staticPath": "/content/static",
"templateProcessorClass": "org.cofax.WysiwygTemplate",
"templateLoaderClass": "org.cofax.FilesTemplateLoader",
"templatePath": "templates",
"templateOverridePath": "",
"defaultListTemplate": "listTemplate.htm",
"defaultFileTemplate": "articleTemplate.htm",
"useJSP": false,
"jspListTemplate": "listTemplate.jsp",
"jspFileTemplate": "articleTemplate.jsp",
"cachePackageTagsTrack": 200,
"cachePackageTagsStore": 200,
"cachePackageTagsRefresh": 60,
"cacheTemplatesTrack": 100,
"cacheTemplatesStore": 50,
"cacheTemplatesRefresh": 15,
"cachePagesTrack": 200,
"cachePagesStore": 100,
"cachePagesRefresh": 10,
"cachePagesDirtyRead": 10,
"searchEngineListTemplate": "forSearchEnginesList.htm",
"searchEngineFileTemplate": "forSearchEngines.htm",
"searchEngineRobotsDb": "WEB-INF/robots.db",
"useDataStore": true,
"dataStoreClass": "org.cofax.SqlDataStore",
"redirectionClass": "org.cofax.SqlRedirection",
"dataStoreName": "cofax",
"dataStoreDriver": "com.microsoft.jdbc.sqlserver.SQLServerDriver",
"dataStoreUrl": "jdbc:microsoft:sqlserver://LOCALHOST:1433;DatabaseName=goon",
"dataStoreUser": "sa",
"dataStorePassword": "dataStoreTestQuery",
"dataStoreTestQuery": "SET NOCOUNT ON;select test='test';",
"dataStoreLogFile": "/usr/local/tomcat/logs/datastore.log",
"dataStoreInitConns": 10,
"dataStoreMaxConns": 100,
"dataStoreConnUsageLimit": 100,
"dataStoreLogLevel": "debug",
"maxUrlLength": 500,
"servlet-name": "cofaxEmail",
"servlet-class": "org.cofax.cds.EmailServlet",
"init-param":
"mailHost": "mail1",
"mailHostOverride": "mail2",
"servlet-name": "cofaxAdmin",
"servlet-class": "org.cofax.cds.AdminServlet",
"servlet-name": "fileServlet",
"servlet-class": "org.cofax.cds.FileServlet",
"servlet-name": "cofaxTools",
"servlet-class": "org.cofax.cms.CofaxToolsServlet",
"init-param":
"templatePath": "toolstemplates/",
"log": 1,
"logLocation": "/usr/local/tomcat/logs/CofaxTools.log",
"logMaxSize": "",
"dataLog": 1,
"dataLogLocation": "/usr/local/tomcat/logs/dataLog.log",
"dataLogMaxSize": "",
"removePageCache": "/content/admin/remove?cache=pages&id=",
"removeTemplateCache": "/content/admin/remove?cache=templates&id=",
"fileTransferFolder": "/usr/local/tomcat/webapps/content/fileTransferFolder",
"lookInContext": 1,
"adminGroupID": 4,
"betaServer": true],
"servlet-mapping":
"cofaxCDS": "/",
"cofaxEmail": "/cofaxutil/aemail/*",
"cofaxAdmin": "/admin/*",
"fileServlet": "/static/*",
"cofaxTools": "/tools/*",
"taglib":
"taglib-uri": "cofax.tld",
"taglib-location": "/WEB-INF/tlds/cofax.tld"
但是如何基于它创建 AVRO Schema?
寻找程序化的方式来做到这一点,因为会有很多模式,并且不能每次都手动创建 Avro 模式。
我检查了“avro-tools-1.8.1.jar”,但无法直接从 JSON 创建 Avro Schema。
寻找可以创建 JSON 的 Jar 或 Python 代码 -> Avro 模式。 如果数据类型不完美也没关系(字符串、整数和浮点数足以开始)。
【问题讨论】:
JSON 基本上是无模式的。这个 JSON 的来源是什么? 谢谢。我明白 JSON 是无模式的。但是,在我的项目中 - 不同的客户有 JSON,他们就这样发送给我。会有许多不同的 JSON - 以上只是 1 个示例。我没有能力强迫他们创建 AVRO,但我的项目需要 AVRO 格式。我有 2 个选项:1)为每个 JSON 手动创建每个客户的 AVRO 模式和 2)尝试使用一些代码自动创建基于 JSON 的 AVRO 模式(即使不完美)。正在寻找选项 2。谢谢。 将其存储为String
。
我不能使用字符串。项目需要AVRO格式,不接受String。
【参考方案1】:
您可以使用 Kite SDK 工具从 json 输入推断 avro 模式。
https://github.com/kite-sdk/kite/blob/master/kite-data/kite-data-core/src/main/java/org/kitesdk/data/spi/JsonUtil.java#L539
例子:
String json = "\n" +
" \"id\": 1,\n" +
" \"name\": \"A green door\",\n" +
" \"price\": 12.50,\n" +
" \"tags\": [\"home\", \"green\"]\n" +
"\n"
;
String avroSchema = JsonUtil.inferSchema(JsonUtil.parse(json), "myschema").toString();
System.out.println(avroSchema);
结果:
"type":"record",
"name":"myschema",
"fields":[
"name":"id",
"type":"int",
"doc":"Type inferred from '1'"
,
"name":"name",
"type":"string",
"doc":"Type inferred from '\"A green door\"'"
,
"name":"price",
"type":"double",
"doc":"Type inferred from '12.5'"
,
"name":"tags",
"type":
"type":"array",
"items":"string"
,
"doc":"Type inferred from '[\"home\",\"green\"]'"
]
可以找到maven依赖here
【讨论】:
【参考方案2】:如果您想避免为每种 JSON 格式创建专用的 AVRO 架构,您可以使用 rec-avro
包。
它允许您采用任何 Python 数据结构,包括解析的 XML 或 JSON,并将其存储在 Avro 中,而无需专用架构。
我为 python 3 测试了它。
您可以将其安装为 pip3 install rec-avro 或查看代码和文档https://github.com/bmizhen/rec-avro
我在这里给了一个 json 到 avro 示例代码:https://***.com/a/55444481/6654219
【讨论】:
【参考方案3】:这很酷,只需简单地复制和粘贴 avro 架构。
https://toolslick.com/generation/metadata/avro-schema-from-json
【讨论】:
这为我节省了一天!太棒了。 这行得通。然而。如果您的 json 在关键字段中有空格,它将在 avro 名称中包含空格,这是无效的。你需要把空间拿出来。加下划线什么的。否则,它似乎工作。如果不出意外,这是了解在 avro 中可能如何格式化复杂内容的好方法。【参考方案4】:试一试。 http://www.dataedu.ca/avro
它基本上推断出接受 JSON 的 Avro 模式。
您甚至可以给它一个 JSON 数组。它会生成一个与数组中的所有 JSON 文档兼容的 Avro 模式。
还有其他工具可以验证结果。
【讨论】:
以上是关于有没有办法以编程方式将 JSON 转换为 AVRO Schema?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Apache nifi 中配置 convertrecord 处理器,以便将 JSON 转换为 AVRO 格式
使用 Java 将 Json 对象转换为 Parquet 格式而不转换为 AVRO(不使用 Spark、Hive、Pig、Impala)