找不到pyspark数据框保存到配置单元表

Posted

技术标签:

【中文标题】找不到pyspark数据框保存到配置单元表【英文标题】:pyspark dataframe save to hive table can not be found 【发布时间】:2019-05-15 10:30:09 【问题描述】:

我们已经通过 cdh6.2 安装了我们的集群。 使用 pyspark 创建一个 dataFrame,然后将其保存到 hive。

该文件已在仓库中正确创建,但使用show tables 在 hive 或 impala 中找不到该文件。

可以通过 spark sql 使用 sql.('show tables') 找到它。但它只显示了之前由 spark 代码创建的表,这意味着它无法看到通过 hive 或 impala 控制台创建的表。

所以我认为火花代码可能没有收集到 Hive Metastore 服务器。

但我不知道如何将其设置到 Hive Metastore 服务器。

【问题讨论】:

Spark 2: how does it work when SparkSession enableHiveSupport() is invoked的可能重复 【参考方案1】:

为了连接到 hive 元存储,您需要将 hive-site.xml 文件复制到 spark/conf 目录中。请尝试以下操作:

ln -s /usr/lib/hive/conf/hive-site.xml /usr/lib/spark/conf/hive-site.xml

【讨论】:

以上是关于找不到pyspark数据框保存到配置单元表的主要内容,如果未能解决你的问题,请参考以下文章

项目部署操作linux数据库mysql出现表找不到

linux中mysql表名默认区分大小写导致表找不到的问题

PySpark 找不到适合 jdbc 的驱动程序:mysql://dbhost

java-连接远程mysql,提示表找不到的问题

如果找不到值,则显示消息框

向 dataproc 集群提交 pyspark 作业时出错(找不到作业)