如何在 pyspark 中加入带有熊猫数据框的配置单元表?
Posted
技术标签:
【中文标题】如何在 pyspark 中加入带有熊猫数据框的配置单元表?【英文标题】:How to join a hive table with a pandas dataframe in pyspark? 【发布时间】:2022-01-24 06:58:16 【问题描述】:我有一个 hive 表 db.hive_table
和一个 pandas 数据框 df
。我希望使用pyspark.SparkSession.builder.enableHiveSupport().getOrCreate().sql
加入他们。我该怎么做?
【问题讨论】:
【参考方案1】:将两者都转换为 pyspark 数据帧,然后加入 dfs。
# Pandas to Spark
df_sp = spark_session.createDataFrame(df_pd)
# Convert hive table to df - sqlContext is of type HiveContext
df_hive = sqlContext.table(tablename)
加入两个dfs。
joined_df = df_sp.join(df_hive, df_sp.id == df_hive.id).select('df_sp.*', 'df_hive.*')
【讨论】:
以上是关于如何在 pyspark 中加入带有熊猫数据框的配置单元表?的主要内容,如果未能解决你的问题,请参考以下文章