pyspark dataframe数据连接(join)转化为pandas dataframe基于多个字段删除冗余数据

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark dataframe数据连接(join)转化为pandas dataframe基于多个字段删除冗余数据相关的知识,希望对你有一定的参考价值。

pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

目录

pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

#pyspark dataframe的连接操作并删除无用字段

#查看dataframe的shape 

#把dataframe从pyspark转化到pandas dataframe

#基于混合字段删除重复记录


#pyspark dataframe的连接操作并删除无用字段

tijian_with_baseInfo_df  = customer_df.join(base_info_df,base_info_df.XH == tijian_with_baseInfo_df.XH)\\
.drop(base_info_df.XH)\\
.drop(base_info_df.sex)\\
.drop(base_info_df.x)\\
.drop(base_info_df.y)\\
.drop(base_info_df.x1)\\
.drop(base_info_df.x4)\\
.drop(base_info_df.x5)\\
.drop(base_info_df.xx)

#查看dataframe的shape 

tijian_with_baseInfo_df.count(),len(tijian_with_baseInfo_df.columns)

#把dataframe从pyspark转化到pandas dataframe

tijian_with_baseInfo_pdf = tijian_with_baseInfo_df.toPandas()

#基于混合字段删除重复记录

tijian_with_baseInfo_pdf = tijian_with_baseInfo_pdf.drop_duplicates(subset = ['x1','x2','x3','z1',],keep = 'first')

参考:python

参考:pyspark 

以上是关于pyspark dataframe数据连接(join)转化为pandas dataframe基于多个字段删除冗余数据的主要内容,如果未能解决你的问题,请参考以下文章

python和R对dataframe进行连接行过滤更新列内容:dplyrmergeinnerleftrightinner_joinleft_joinsort_valuesloc

如何使用 Pyspark 中的 Graphframes 和 Spark Dataframe 中的原始数据获取连接的组件?

通过列 [PySpark] 连接两个 DataFrame

连接后如何在 Pyspark Dataframe 中选择和排序多个列

如何在pyspark中的数据框之间进行连接

将pyspark列连接到pyspark DataFrame