PySpark SQL:合并 .withColumn 调用

Posted

技术标签:

【中文标题】PySpark SQL:合并 .withColumn 调用【英文标题】:PySpark SQL: consolidating .withColumn calls 【发布时间】:2016-08-14 01:12:22 【问题描述】:

我有一个已转换为 Spark SQL DataFrame 的 RDD。我想用 UDF 对列进行一些转换,最终看起来像这样:

df = df.withColumn("col1", udf1(df.col1))\
       .withColumn("col2", udf2(df.col2))\
       ...
       ...
       .withColumn("newcol", udf(df.oldcol1, df.oldcol2))\
       .drop(df.oldcol1).drop(df.oldcol2)\
       ...

等等。

有没有更简洁的方式来表达这一点(重复的withColumndrop 调用)?

【问题讨论】:

【参考方案1】:

您可以在一个表达式中传递多个操作。

exprs = [udf1(col("col1")).alias("col1"),
         udf2(col("col2")).alias("col2"),
         ...
         udfn(col("coln")).alias("coln")]

然后将它们解压到select:

df = df.select(*exprs)

因此,采用这种方法,您将在 df 上执行此类 udfs,并且您将重命名结果列。请注意,我的回答几乎与this 完全一样,但是问题与我的完全不同,所以这就是为什么我决定回答它而不是将其标记为重复。

【讨论】:

以上是关于PySpark SQL:合并 .withColumn 调用的主要内容,如果未能解决你的问题,请参考以下文章

PySpark SQL:合并 .withColumn 调用

如何在pyspark withcolumn中使用udf和class

pyspark列合并为一行

如何将共享 id 的多行合并为一行(PYSPARK)

pyspark - 将两个数据帧与目标中的额外列合并

Pyspark:将 pyspark.sql.row 转换为 Dataframe