加入 pyspark 不同的列
Posted
技术标签:
【中文标题】加入 pyspark 不同的列【英文标题】:Joins in pyspark different columns 【发布时间】:2019-03-22 11:31:23 【问题描述】:如何在两个不同的列上加入 pyspark 数据框?
Cols df1: ID,DATE
cols df2: user,DATE
I want to Join df1.ID==df2.user and df1.DATE==df2.DATE
【问题讨论】:
Join two DataFrames where the join key is different and only select some columns的可能重复 【参考方案1】:Joindf = df1.join(df2.withColumnRenamed("ID","user"), ["ID","DATE"])
应该为你做。
【讨论】:
以上是关于加入 pyspark 不同的列的主要内容,如果未能解决你的问题,请参考以下文章
Pyspark - 如何将多个数据帧的列连接成一个数据帧的列
Pyspark 与 AWS Glue 在多个列上加入创建重复项