如何在火花中合并或连接具有不相等列号的数据框
Posted
技术标签:
【中文标题】如何在火花中合并或连接具有不相等列号的数据框【英文标题】:How can i merge or Concatenate data frame having non equal column number in spark 【发布时间】:2016-09-22 08:42:35 【问题描述】:我正在使用 spark 做一个项目。在某些阶段,我需要在单个数据框中合并或连接 3 个数据框。这些数据帧来自 spark sql 表 我使用了联合函数,它已经合并了两个表中具有相同数字的列 但我也需要合并不相等的列值。我现在很困惑 有什么方法可以在 pyspark 中合并或连接不相等的基于列的数据框,请指导我
【问题讨论】:
【参考方案1】:您可以在合并之前添加具有默认值的列。
from pyspark.sql.functions import lit
updDf = df2.withColumn('zero_column', lit(0))
df1.union(updDf)
【讨论】:
感谢您的回复。在 lit() 内部,我可以使用来自 spark sql 查询的值吗? 视情况而定。你能用一个例子来问一个新问题来检查你需要什么吗?以上是关于如何在火花中合并或连接具有不相等列号的数据框的主要内容,如果未能解决你的问题,请参考以下文章