pyspark dataframe数据连接(join)转化为pandas dataframe基于多个字段删除冗余数据
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark dataframe数据连接(join)转化为pandas dataframe基于多个字段删除冗余数据相关的知识,希望对你有一定的参考价值。
pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据
目录
pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据
#pyspark dataframe的连接操作并删除无用字段
#把dataframe从pyspark转化到pandas dataframe
#pyspark dataframe的连接操作并删除无用字段
tijian_with_baseInfo_df = customer_df.join(base_info_df,base_info_df.XH == tijian_with_baseInfo_df.XH)\\
.drop(base_info_df.XH)\\
.drop(base_info_df.sex)\\
.drop(base_info_df.x)\\
.drop(base_info_df.y)\\
.drop(base_info_df.x1)\\
.drop(base_info_df.x4)\\
.drop(base_info_df.x5)\\
.drop(base_info_df.xx)
#查看dataframe的shape
tijian_with_baseInfo_df.count(),len(tijian_with_baseInfo_df.columns)
#把dataframe从pyspark转化到pandas dataframe
tijian_with_baseInfo_pdf = tijian_with_baseInfo_df.toPandas()
#基于混合字段删除重复记录
tijian_with_baseInfo_pdf = tijian_with_baseInfo_pdf.drop_duplicates(subset = ['x1','x2','x3','z1',],keep = 'first')
参考:python
参考:pyspark
以上是关于pyspark dataframe数据连接(join)转化为pandas dataframe基于多个字段删除冗余数据的主要内容,如果未能解决你的问题,请参考以下文章
python和R对dataframe进行连接行过滤更新列内容:dplyrmergeinnerleftrightinner_joinleft_joinsort_valuesloc
如何使用 Pyspark 中的 Graphframes 和 Spark Dataframe 中的原始数据获取连接的组件?