在 Spark DataFrame 上保存到 JSON 并重新加载，模式列序列发生变化

Posted 2023-04-15

技术标签:

【中文标题】在 Spark DataFrame 上保存到 JSON 并重新加载，模式列序列发生变化【英文标题】：On Spark DataFrame save to JSON and load back, schema column sequence changes 【发布时间】：2016-01-08 03:37:03 【问题描述】：

我正在使用 spark DataFrames 并尝试对相同架构的 DataFrames 进行重复数据删除。

将 DataFrame 保存为 JSON 之前的模式如下：

root
 |-- startTime: long (nullable = false)
 |-- name: string (nullable = true)

从 JSON 文件加载后的 DataFrame 架构如下：

root
 |-- name: string (nullable = true)
 |-- startTime: long (nullable = false)

我将 JSON 保存为：

newDF.write.json(filePath)

回读为：

existingDF = sqlContext.read.json(filePath)

unionAll 之后

existingDF.unionAll(newDF).distinct()

或除外

newDF.except(existingDF)

由于架构更改，重复数据删除失败。

我可以避免这种架构转换吗？有没有办法在保存到 JSON 文件和从 JSON 文件加载回时保存（或强制执行）模式序列？

【问题讨论】：

【参考方案1】：

实施了一种解决方法，将架构转换回我需要的：

val newSchema = StructType(jsonDF.schema.map 
  case StructField(name, dataType, nullable, metadata) if name.equals("startTime") => StructField(name, LongType, nullable = false, metadata)
  case y: StructField => y
)
existingDF = sqlContext.createDataFrame(jsonDF.rdd, newSchema).select("startTime", "name")

【讨论】：

以上是关于在 Spark DataFrame 上保存到 JSON 并重新加载，模式列序列发生变化的主要内容，如果未能解决你的问题，请参考以下文章