在 pyspark sparksession 中检查 Hive 中是不是存在表

Posted

技术标签:

【中文标题】在 pyspark sparksession 中检查 Hive 中是不是存在表【英文标题】:Check if a table exists in Hive in pyspark sparksession在 pyspark sparksession 中检查 Hive 中是否存在表 【发布时间】:2020-08-25 16:02:10 【问题描述】:

我有以下代码。我想要实现的是检查 Hive 的数据库中是否已经存在表。如果是,则将新数据追加到。如果没有,则创建一个新表。

 if "table1" in sqlContext.tableNames("db1"):
    df.write.format("orc").mode("append").insertInto("db1.table1")
 else:
    df.write.format("orc").saveAsTable("db1.table1")

但我收到此错误:

NameError: name 'sqlContext' is not defined

我在 Pyspark 中通过 Jupyter Notebook 使用 spark 会话:

spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()

我该如何解决这个错误?

【问题讨论】:

【参考方案1】:

这取决于您的 Apache Spark 版本。如果您的 Spark 版本是 1.x,那么您需要执行以下操作:

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

【讨论】:

我的spark版本是2.3.0.2 我收到 NameError: name 'sc' is not defined using the code 从 pyspark 导入 SparkContext sc =SparkContext.getOrCreate()

以上是关于在 pyspark sparksession 中检查 Hive 中是不是存在表的主要内容,如果未能解决你的问题,请参考以下文章

SparkSession 中的 udf 和 pyspark.sql.functions 中的 udf 有啥区别

PySpark数据分析基础:pyspark.sql.SparkSession类方法详解及操作+代码展示

PySpark:无法创建SparkSession。(Java Gateway Error)

在 pyspark sparksession 中检查 Hive 中是不是存在表

创建 SparkSession 的 Spark 3.0.0 错误:pyspark.sql.utils.IllegalArgumentException:<exception str() fail

带有架构的 pyspark.sql SparkSession load() :架构中的非字符串类型字段使所有值都为空