Apache Spark 上的 Apache Hive

Posted 2023-03-23

技术标签:

【中文标题】Apache Spark 上的 Apache Hive【英文标题】：Apache Hive on Apache Spark 【发布时间】：2018-07-14 00:58:00 【问题描述】：

有没有人研究过这种配置：？

此配置的最新版本兼容性是什么？

我想在我的生产系统中实现这一点。请帮助了解 Apache Hadoop、Apache Hive、Apache Spark 和 Apache Zeppelin 的兼容性矩阵。

【问题讨论】：

尝试阅读文档？ cwiki.apache.org/confluence/display/Hive/… 另外，Zeppelin 不在乎（只要您配置了 JDBC 解释器：Spark 解释器不使用 HiveServer）。 【参考方案1】：

您必须使用hive2 (0.11+) 和SPARK 2.2.0 以及hive-site.xml。而且您必须将 Spark 设置为执行引擎，以便您可以轻松地在 Spark 上运行查询。

在hive2 中有一些选项，如Tez、llap 等。有关更多信息，请查看文档Hive on Spark: Getting Started。

【讨论】：

您的答案中缺少链接 @SiddheshKalgaonkar 这里是cwiki.apache.org/confluence/display/Hive/… 我已经编辑了 sahil 的答案。请再看一遍，你会找到那个链接在学生的直线选择计数（*）中运行时出现错误；为了设置一个恒定数量的reducer：set mapreduce.job.reduces= 未能执行spark任务，异常'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.) ' FAILED：执行错误，从 org.apache.hadoop.hive.ql.exec.spark.SparkTask 返回代码 1 错误：处理语句时出错：FAILED：执行错误，从 org.apache.hadoop.hive.ql 返回代码 1 .exec.spark.SparkTask (state=08S01,code=1)【参考方案2】：

按照教程进行

apache hive installation

然后将 hive-site.xml 复制到 $APACHE_HOME/conf

【讨论】：

【参考方案3】：

Hive 正在转向仅依赖 Tez 执行引擎。请在 MapReduce 或 Tez 上构建所有新工作负载。

【讨论】：

以上是关于Apache Spark 上的 Apache Hive的主要内容，如果未能解决你的问题，请参考以下文章

GPU上的随机森林：比Apache Spark快2000倍

坐标矩阵 Apache Spark 上的 Ax = b 求解器

Apache Spark - 处理临时 RDD 上的滑动窗口

无法使用 Jupyter 笔记本上的 pyspark 从 Apache Spark 连接到 MS SQL

apache storm apache spark哪个更火

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN