加入 pyspark 不同的列

Posted

技术标签:

【中文标题】加入 pyspark 不同的列【英文标题】:Joins in pyspark different columns 【发布时间】:2019-03-22 11:31:23 【问题描述】:

如何在两个不同的列上加入 pyspark 数据框?

Cols df1: ID,DATE
cols df2: user,DATE

I want to Join df1.ID==df2.user and df1.DATE==df2.DATE

【问题讨论】:

Join two DataFrames where the join key is different and only select some columns的可能重复 【参考方案1】:
Joindf = df1.join(df2.withColumnRenamed("ID","user"), ["ID","DATE"]) 

应该为你做。

【讨论】:

以上是关于加入 pyspark 不同的列的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark - 如何将多个数据帧的列连接成一个数据帧的列

Pyspark:如何在不同条件的数据框中创建列

合并两个蜂巢表(不同的列大小)- pyspark

Pyspark 与 AWS Glue 在多个列上加入创建重复项

遍历 pyspark 数据框中的列,而不为单个列创建不同的数据框

Pyspark/SQL 将具有列表值的列连接到另一个数据框列