如何使用 spark-xml 包使用 XSD 解析 XML?

Posted

技术标签:

【中文标题】如何使用 spark-xml 包使用 XSD 解析 XML?【英文标题】:How to parse XML with XSD using spark-xml package? 【发布时间】:2021-04-27 10:55:14 【问题描述】:

我正在尝试通过提供 XSD 架构来解析简单的 XML。使用此处给出的方法。

https://github.com/databricks/spark-xml#xsd-support

XML 在这里:

<?xml version="1.0"?>  
<beginnersbook>
 <to>My Readers</to>
 <from>Chaitanya</from>
 <subject>A Message to my readers</subject>
 <message>Welcome to beginnersbook.com</message>
</beginnersbook>

XSD 来了:

<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
targetNamespace="https://www.beginnersbook.com"
xmlns="https://www.beginnersbook.com"
elementFormDefault="qualified">

<xs:element name="beginnersbook">
  <xs:complexType>
    <xs:sequence>
      <xs:element name="to" type="xs:string"/>
      <xs:element name="from" type="xs:string"/>
      <xs:element name="subject" type="xs:string"/>
      <xs:element name="message" type="xs:string"/>
    </xs:sequence>
  </xs:complexType>
</xs:element>

</xs:schema>

我正在尝试阅读此 XSD 并尝试构建如下所示的架构。

import com.databricks.spark.xml.util.XSDToSchema
import java.nio.file.Paths
val schemaParsed = XSDToSchema.read(Paths.get("<local_linux_path>/sample_file.xsd"))
print(schema)

此处架构已成功解析。 接下来我正在读取如下 XML 文件。

val df = spark.read.format("com.databricks.spark.xml").schema(schemaParsed).load("<hdfs_path>/sample_file.xml")

在这一步之后,我可以使用 df.printSchema() 显示 Dataframe 的架构,但是如果我给 df.show() ,内容就会变成空的

请指导我在哪里做错了。

提前致谢。

【问题讨论】:

永远。解决了吗? 是的。我稍微修改了 XSD。它开始工作了.. 【参考方案1】:

对于那些来这里寻找答案的人,您可以使用online XSD / XML validator 之类的工具来找出在针对您的架构解析 XML 示例时出现的错误。

在这种情况下,XSD 中的 targetNamespace="https://www.beginnersbook.com" 没有在 XML 中使用相应的命名空间会导致问题。可以通过从 XSD 中删除目标名称空间或修改 XML 以使用目标名称空间来解决此问题。 XSD 修改是直截了当的 - 只需将其删除。 XML 修改的简单形式如下所示:

<?xml version="1.0"?>  
<beginnersbook
    xmlns="https://www.beginnersbook.com">
 <to>My Readers</to>
 ...

【讨论】:

以上是关于如何使用 spark-xml 包使用 XSD 解析 XML?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Spark-Xml 生成复杂的 XML

如何使用 Java 和 XmlSchema Core 解析 XSD 并读取所有复杂元素及其子元素

如何使用Spark-Xml生成复杂的XML

使用 XSD、目录解析器和用于 XSLT 的 JAXP DOM 验证 XML

如何在 spark-xml 中禁用科学计数法

如何在 Java DocumentBuilder 中解析 XSD 文件期间将元素附加到现有节点列表