如何将 Spark-Notebook 连接到 Hive 元存储?

Posted

技术标签:

【中文标题】如何将 Spark-Notebook 连接到 Hive 元存储?【英文标题】:How to connect Spark-Notebook to Hive metastore? 【发布时间】:2015-10-21 16:24:02 【问题描述】:

这是一个包含 Hadoop 2.5.0、Spark 1.2.0、Scala 2.10 的集群,由 CDH 5.3.2 提供。我用了compiled spark-notebook distro

Spark-Notebook 似乎默认找不到 Hive 元存储。

如何为 spark-notebook 指定hive-site.xml 的位置,以便它可以加载 Hive 元存储?

这是我尝试过的:

    将 /etc/hive/conf 中的所有文件(包括 hive-site.xml)链接到当前目录

    在 bash 中指定 SPARK_CONF_DIR 变量

【问题讨论】:

您是否已经启动了 Hive Metastore 服务? 【参考方案1】:

当你启动 notebook 时,使用你找到 hive-site.xml 的路径设置环境变量 EXTRA_CLASSPATH, 这对我有用:EXTRA_CLASSPATH=/path_of_my_mysql_connector/mysql-connector-java.jar:/my_hive_site.xml_directory/conf ./bin/spark-notebook 我也通过了 mysqlconnector 的 jar,因为我有 Hive with MySql。

我从这个链接中找到了一些信息:https://github.com/andypetrella/spark-notebook/issues/351

【讨论】:

【参考方案2】:

使用 CDH 5.5.0 快速入门 VM,解决方案如下:您需要引用 hive-site.xml 到提供对 hive 元存储的访问信息的笔记本。默认情况下,spark-notebooks 使用内部元存储。

您可以在~/.bash_profile中定义如下环境变量:

HADOOP_CONF_DIR=$HADOOP_CONF_DIR:/etc/hive/conf.cloudera.hive/
export HADOOP_CON_DIR

(确保你执行source ~/.bash_profile如果你没有打开一个新的终端终端)

(这里给出解决方案:https://github.com/andypetrella/spark-notebook/issues/351)

【讨论】:

以上是关于如何将 Spark-Notebook 连接到 Hive 元存储?的主要内容,如果未能解决你的问题,请参考以下文章

HI3861学习笔记(19)——WiFi接口使用(STA和AP模式)

我无法将 TableViewCell 按钮连接到 TableViewController!如何将 TableViewCell 中的值连接到 TableViewController?

如何将 HTML 页面连接到 MongoDB?

将 Auth0 连接到我的后端后,如何将其连接到我的 NextJS 前端?

如何将设备连接到 Eclipse?

Android 10 / API 29:如何将手机连接到配置的网络?