合并两个蜂巢表(不同的列大小)- pyspark

Posted

技术标签:

【中文标题】合并两个蜂巢表(不同的列大小)- pyspark【英文标题】:Merge two hive table(Different column size)- pyspark 【发布时间】:2020-03-11 07:13:58 【问题描述】:

我有一个带有架构的配置单元表 姓名、联系方式、地址、主题

Name  Contact   Address  Subject
abc   1111      Mumbai    maths
egf   2222      nashik    science
pqr   3333      delhi     history

And other table with schema **Name ,Contact** 
Name   Contact
xyz    4444  
mno    2222 

预期输出

Name  Contact   Address  Subject
abc   1111      Mumbai    maths
pqr   3333      delhi     history
xyz   4444      null      null
mno   2222      nashik    science

我尝试过加入操作,但无法得到正确的输出

【问题讨论】:

【参考方案1】:

使用完全连接:

select coalesce(t2.name,t1.name) as name, 
       coalesce(t2.contact, t1.contact) as contact,
       t1.address, t1.subject
  from table1 t1
       full join table2 t2
                 on t1.contact=t2.contact

【讨论】:

以上是关于合并两个蜂巢表(不同的列大小)- pyspark的主要内容,如果未能解决你的问题,请参考以下文章

当数据集的列具有不同的行数时合并它们

熊猫合并:合并同一列上的两个数据框,但保留不同的列

将两个表中的列合并为一个

pandas:合并两个不同名称的列?

使用具有相同字符串但顺序不同的列合并两个 data.frame

熊猫在不同长度的列上合并两个数据框