如何在火花中合并或连接具有不相等列号的数据框

Posted

技术标签:

【中文标题】如何在火花中合并或连接具有不相等列号的数据框【英文标题】:How can i merge or Concatenate data frame having non equal column number in spark 【发布时间】:2016-09-22 08:42:35 【问题描述】:

我正在使用 spark 做一个项目。在某些阶段,我需要在单个数据框中合并或连接 3 个数据框。这些数据帧来自 spark sql 表 我使用了联合函数,它已经合并了两个表中具有相同数字的列 但我也需要合并不相等的列值。我现在很困惑 有什么方法可以在 pyspark 中合并或连接不相等的基于列的数据框,请指导我

【问题讨论】:

【参考方案1】:

您可以在合并之前添加具有默认值的列。

from pyspark.sql.functions import lit

updDf = df2.withColumn('zero_column', lit(0))

df1.union(updDf)

【讨论】:

感谢您的回复。在 lit() 内部,我可以使用来自 spark sql 查询的值吗? 视情况而定。你能用一个例子来问一个新问题来检查你需要什么吗?

以上是关于如何在火花中合并或连接具有不相等列号的数据框的主要内容,如果未能解决你的问题,请参考以下文章

如何在火花中合并两个不同的数据帧? [复制]

如何通过熊猫或火花数据框删除所有行中具有相同值的列?

如何分组和合并这些火花数据框组的行

如何在R中将2个具有不同行和列号的表组合在一起

SQL合并两个具有不同列号的选择查询,同时删除重复项?

如何在火花数据框中将列连接到一个