如何在 pyspark 中加入带有熊猫数据框的配置单元表?

Posted

技术标签:

【中文标题】如何在 pyspark 中加入带有熊猫数据框的配置单元表?【英文标题】:How to join a hive table with a pandas dataframe in pyspark? 【发布时间】:2022-01-24 06:58:16 【问题描述】:

我有一个 hive 表 db.hive_table 和一个 pandas 数据框 df。我希望使用pyspark.SparkSession.builder.enableHiveSupport().getOrCreate().sql 加入他们。我该怎么做?

【问题讨论】:

【参考方案1】:

将两者都转换为 pyspark 数据帧,然后加入 dfs。

# Pandas to Spark
df_sp = spark_session.createDataFrame(df_pd)
# Convert hive table to df - sqlContext is of type HiveContext
df_hive = sqlContext.table(tablename)

加入两个dfs。

joined_df = df_sp.join(df_hive, df_sp.id == df_hive.id).select('df_sp.*', 'df_hive.*')

【讨论】:

以上是关于如何在 pyspark 中加入带有熊猫数据框的配置单元表?的主要内容,如果未能解决你的问题,请参考以下文章

如何在pyspark中加入具有多个重叠的两个数据框

pySpark 数据框转换性能

如何避免pyspark中加入操作中的过度洗牌?

在pyspark中加入具有相同列名的数据框

如何在python中获取熊猫数据框的行列表? [复制]

将列表转换为数据框,然后在 pyspark 中加入不同的数据框