使用 DataFrame 解析混合内容 XML

Posted

技术标签:

【中文标题】使用 DataFrame 解析混合内容 XML【英文标题】:Mixed Content XML parsing using DataFrame 【发布时间】:2018-06-12 07:12:34 【问题描述】:

我有一个包含混合内容的 XML 文档,我在 Dataframe 中使用自定义模式来解析它。我遇到了一个问题,架构只会拾取“测量”的文本。

XML 看起来像这样

<QData>
    <Measure> some text here
        <Answer>Answer1</Answer>
        <Question>Question1</Question>
    </Measure>
    <Measure> some text here
        <Answer>Answer1</Answer>
        <Question>Question1</Question>
    </Meaure>
</QData>

我的架构如下:

def getCustomSchema():StructType = StructField("QData",
      StructType(Array(
        StructField("Measure",
          StructType( Array( 
            StructField("Answer",StringType,true),
            StructField("Question",StringType,true)                
        )),true)
      )),true)

当我尝试访问 Measure 中的数据时,我只会收到“此处的一些文本”,而当我尝试从 Answer 获取信息时它会失败。我也只是得到一个 Measure。

编辑:这就是我尝试访问数据的方式

val result = sc.read.format("com.databricks.spark.xml").option("attributePrefix", "attr_").schema(getCustomSchema)
    .load(filename.toString)

val qDfTemp = result.mapPartitions(partition =>val mapper = new QDMapper();partition.map(row=>mapper(row)).flatMap(list=>list)).toDF()

case class QDMapper()
    def apply(row: Row):List[QData]=
        val qDList = new ListBuffer[QData]()
        val qualData = row.getAs[Row]("QData") //When I print as list I get the first Measure text and that is it
        val measure = qualData.getAs[Row]("Measure") //This fails


【问题讨论】:

你的 spark.read 命令是什么? 我正在使用 val Qdata = row.getAs[Row]("QData") 获取数据。我试过 val measure = Qdata.getAs[Row]("Measure") 但它失败了 您可以尝试使用 Databrick 的库来读取 xml 文档作为数据框。 val df = sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "Measure").load("test.xml") 这就是我正在使用的,但我已经为它创建了一个自定义架构。就在 .load("test.xml") 之前,我有 .schema(getCustomSchema)。 亲爱的未来人。我还没有找到解决这个确切问题的方法。我们刚刚添加了一个流程,将“这里的一些文本”包含在它自己的 XML 标记中,数据块解析器按预期工作。 【参考方案1】:

您可以使用行标签作为根标签并访问其他元素:-

df_schema = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='<xml_tag_name>').load(schema_path)

请访问https://github.com/harshaltaware/Pyspark/blob/main/Spark-data-parsing/xmlparsing.py获取简要代码

【讨论】:

以上是关于使用 DataFrame 解析混合内容 XML的主要内容,如果未能解决你的问题,请参考以下文章

HTTPS混合内容解析

如何验证 Spark Dataframe 的内容

使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet

用dataframe重写sql查询;如何从选择中混合不同的来源

MIME::Parser 无法正确解析多部分/混合部分

如何有效地解析 JSON 内容的 pandas 列?