在 Pyspark 中爆炸不是数组的结构列

Posted

技术标签:

【中文标题】在 Pyspark 中爆炸不是数组的结构列【英文标题】:Explode struct column which isn't array in Pyspark 【发布时间】:2022-01-24 01:14:21 【问题描述】:

我得到了一个结构列(来自 json)与这个架构:

struct_col_name
 |    |-- 2053771759: struct (nullable = true)
 |    |    |-- col1: long (nullable = true)
 |    |    |-- col2: string (nullable = true)
 |    |    |-- col3: long (nullable = true)
 |    |    |-- col4: string (nullable = true)
 |    |-- 2053771760: struct (nullable = true)
 |    |    |-- col1: long (nullable = true)
 |    |    |-- col2: string (nullable = true)
 |    |    |-- col3: long (nullable = true)
 |    |    |-- col4: string (nullable = true)
 |    |-- 2053771761: struct (nullable = true)
 |    |    |-- col1: long (nullable = true)
 |    |    |-- col2: string (nullable = true)
 |    |    |-- col3: long (nullable = true)
 |    |    |-- col4: string (nullable = true)

由于所有内部 strcuts 都具有相同的字段,我想将架构转换为类似的内容,并将id(例如2053771759)添加为每个元素的字段。

通过这样做,我将能够将列分解为行。

struct_col_name
 |    |-- element: struct: struct (nullable = true)
 |    |    |    |-- col1: long (nullable = true)
 |    |    |    |-- col2: string (nullable = true)
 |    |    |    |-- col3: long (nullable = true)
 |    |    |    |-- col4: string (nullable = true)
 |    |    |    |-- id: long (nullable = true)

知道我该怎么做吗?还是用其他方式炸开柱子?

【问题讨论】:

【参考方案1】:

首先,您可以使用df.select("struct_col_name.*") 数据框的架构来获取IDs 的列表。然后,您可以遍历该列表以更新每个 通过将id 字段添加到现有字段并创建结构列数组来构建结构。最后,分解数组列,逐行得到一个结构体。

类似这样的:

from pyspark.sql import functions as F

inner_fields = ["col1", "col2", "col3", "col4"]
ids = df.select("struct_col_name.*").columns

df = df.select(
    F.explode(F.array(*[
        F.struct(*[
            F.col(f"struct_col_name.i.c") for c in inner_fields
        ], F.lit(i).alias(i))
        for i in ids
    ])).alias("struct_col_name")
)

【讨论】:

以上是关于在 Pyspark 中爆炸不是数组的结构列的主要内容,如果未能解决你的问题,请参考以下文章

分组并爆炸pyspark数组类型列

使用 pyspark 将结构数组旋转到列中 - 不爆炸数组

Pyspark Struct 列:爆炸后的奇怪行为

Pyspark - 将结构列合并到数组中

想将key添加到pyspark dataFrame的爆炸数组中

PySpark 2.2 爆炸删除空行(如何实现explode_outer)? [复制]