如何在 pyspark 中加入带有熊猫数据框的配置单元表？

Posted 2023-03-23

技术标签:

【中文标题】如何在 pyspark 中加入带有熊猫数据框的配置单元表？【英文标题】：How to join a hive table with a pandas dataframe in pyspark? 【发布时间】：2022-01-24 06:58:16 【问题描述】：

我有一个 hive 表 db.hive_table 和一个 pandas 数据框 df。我希望使用pyspark.SparkSession.builder.enableHiveSupport().getOrCreate().sql 加入他们。我该怎么做？

【问题讨论】：

【参考方案1】：

将两者都转换为 pyspark 数据帧，然后加入 dfs。

# Pandas to Spark
df_sp = spark_session.createDataFrame(df_pd)

# Convert hive table to df - sqlContext is of type HiveContext
df_hive = sqlContext.table(tablename)

加入两个dfs。

joined_df = df_sp.join(df_hive, df_sp.id == df_hive.id).select('df_sp.*', 'df_hive.*')

【讨论】：

以上是关于如何在 pyspark 中加入带有熊猫数据框的配置单元表？的主要内容，如果未能解决你的问题，请参考以下文章