Apache Spark 上的 Apache Hive

Posted

技术标签:

【中文标题】Apache Spark 上的 Apache Hive【英文标题】:Apache Hive on Apache Spark 【发布时间】:2018-07-14 00:58:00 【问题描述】:

有没有人研究过这种配置:?

此配置的最新版本兼容性是什么?

我想在我的生产系统中实现这一点。请帮助了解 Apache Hadoop、Apache Hive、Apache Spark 和 Apache Zeppelin 的兼容性矩阵。

【问题讨论】:

尝试阅读文档? cwiki.apache.org/confluence/display/Hive/… 另外,Zeppelin 不在乎(只要您配置了 JDBC 解释器:Spark 解释器不使用 HiveServer)。 【参考方案1】:

您必须使用hive2 (0.11+) 和SPARK 2.2.0 以及hive-site.xml。而且您必须将 Spark 设置为执行引擎,以便您可以轻松地在 Spark 上运行查询。

hive2 中有一些选项,如Tezllap 等。有关更多信息,请查看文档Hive on Spark: Getting Started。

【讨论】:

您的答案中缺少链接 @SiddheshKalgaonkar 这里是cwiki.apache.org/confluence/display/Hive/… 我已经编辑了 sahil 的答案。请再看一遍,你会找到那个链接 在学生的直线选择计数(*)中运行时出现错误;为了设置一个恒定数量的reducer:set mapreduce.job.reduces= 未能执行spark任务,异常'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.) ' FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.spark.SparkTask 返回代码 1 错误:处理语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql 返回代码 1 .exec.spark.SparkTask (state=08S01,code=1)【参考方案2】:

按照教程进行

apache hive installation

然后将 hive-site.xml 复制到 $APACHE_HOME/conf

【讨论】:

【参考方案3】:

Hive 正在转向仅依赖 Tez 执行引擎。请在 MapReduce 或 Tez 上构建所有新工作负载。

【讨论】:

以上是关于Apache Spark 上的 Apache Hive的主要内容,如果未能解决你的问题,请参考以下文章

GPU上的随机森林:比Apache Spark快2000倍

坐标矩阵 Apache Spark 上的 Ax = b 求解器

Apache Spark - 处理临时 RDD 上的滑动窗口

无法使用 Jupyter 笔记本上的 pyspark 从 Apache Spark 连接到 MS SQL

apache storm apache spark哪个更火

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN