Apache Spark 上的 Apache Hive
Posted
技术标签:
【中文标题】Apache Spark 上的 Apache Hive【英文标题】:Apache Hive on Apache Spark 【发布时间】:2018-07-14 00:58:00 【问题描述】:有没有人研究过这种配置:?
此配置的最新版本兼容性是什么?
我想在我的生产系统中实现这一点。请帮助了解 Apache Hadoop、Apache Hive、Apache Spark 和 Apache Zeppelin 的兼容性矩阵。
【问题讨论】:
尝试阅读文档? cwiki.apache.org/confluence/display/Hive/… 另外,Zeppelin 不在乎(只要您配置了 JDBC 解释器:Spark 解释器不使用 HiveServer)。 【参考方案1】:您必须使用hive2
(0.11+) 和SPARK 2.2.0
以及hive-site.xml
。而且您必须将 Spark 设置为执行引擎,以便您可以轻松地在 Spark 上运行查询。
在hive2
中有一些选项,如Tez
、llap
等。有关更多信息,请查看文档Hive on Spark: Getting Started。
【讨论】:
您的答案中缺少链接 @SiddheshKalgaonkar 这里是cwiki.apache.org/confluence/display/Hive/… 我已经编辑了 sahil 的答案。请再看一遍,你会找到那个链接 在学生的直线选择计数(*)中运行时出现错误;为了设置一个恒定数量的reducer:set mapreduce.job.reduces=按照教程进行
apache hive installation
然后将 hive-site.xml 复制到 $APACHE_HOME/conf
【讨论】:
【参考方案3】:Hive 正在转向仅依赖 Tez 执行引擎。请在 MapReduce 或 Tez 上构建所有新工作负载。
【讨论】:
以上是关于Apache Spark 上的 Apache Hive的主要内容,如果未能解决你的问题,请参考以下文章
坐标矩阵 Apache Spark 上的 Ax = b 求解器
Apache Spark - 处理临时 RDD 上的滑动窗口