如何根据给定的 json 格式排列数据帧

Posted

技术标签:

【中文标题】如何根据给定的 json 格式排列数据帧【英文标题】:How to arrange dataframe according to the given json format 【发布时间】:2021-12-24 18:31:34 【问题描述】:

这是我正在处理的数据框 我想把它改成如下格式的数据集

“身份证”: “唯一标识”:“标识” “细节” : “人名”:“姓名” “人名”:“年龄”

【问题讨论】:

【参考方案1】:

你的 json 有几个问题。

    在子 json“详细信息”中不能有两次相同的“人名”键 您缺少外部花括号。

所以修正后的 json 对象应该是这样的。

"Id": "Unique-id": "id", "Details": "Person-name": "name", "Person-age": "25"

如果是这样,那么转换就很简单了。

df = (spark.read.json('test.json')
      .withColumn('Unique-Id', F.col('Id.Unique-id'))
      .withColumn('age', F.col('Id.Details.Person-age'))
      .withColumn('name', F.col('Id.Details.Person-name'))
      .drop('Id')
      .withColumnRenamed('Unique-Id', 'id')
  )

【讨论】:

【参考方案2】:

您只需要选择您需要的字段。假设以下输入 DataFrame:

case class Top(Id: Inner)
case class Inner(`Unique-id`: String, Details: Details)
case class Details(`Person-name`: String, `Person-age`: Int)

val ss: SparkSession = ???
import ss.implicits._

val df = Seq(
  Top(Inner("1201", Details("satish", 25)))
).toDF

您将拥有以下内容:

root
 |-- Id: struct (nullable = true)
 |    |-- Unique-id: string (nullable = true)
 |    |-- Details: struct (nullable = true)
 |    |    |-- Person-name: string (nullable = true)
 |    |    |-- Person-age: integer (nullable = false)

您可以使用以下命令构建所需的输出:


df.select(
  col("Id.Unique-id") as "id",
  col("Id.Details.Person-name") as "name",
  col("Id.Details.Person-age") as "age",
)

【讨论】:

以上是关于如何根据给定的 json 格式排列数据帧的主要内容,如果未能解决你的问题,请参考以下文章

如何正确 json_normalize 以便我以正确的格式获取数据帧?

如何打开.json.gz格式文件并创建数据帧n R?

如何正确地将数据帧的所有日期时间列转换为 iso 格式

为 Django 模板中的 Highcharts 从 Pandas 数据帧格式化 JSON

如何将 JSON 格式的数据展平为 spark 数据框

如何使 LocalTime 实例变量根据我的特定格式接受 json 数据?