什么是Hive on Spark

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是Hive on Spark相关的知识,希望对你有一定的参考价值。

hive默认计算引擎是mapreduce,hive on spark是搞hive的开发者将计算引擎换成spark
对应的有spark sql,这是spark的开发者写的访问hive数据的sql引擎。两者开发者不同。
如果你搞hive的话,建议可以再了解下hive on tez,又叫Stinger
参考技术A hive在这里与spark结合,使得spark利用sparksql可以图形化的查询。

黑猴子的家:Spark on hive 与 hive on spark 的区别

参考技术A 是spark 通过Spark-SQL使用hive 语句,操作hive ,底层运行的还是 spark rdd.
(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息
(2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
(3)接下来就可以通过spark sql来操作hive表中的数据

是把hive查询从mapreduce 的mr (Hadoop计算引擎)操作替换为spark rdd(spark 执行引擎) 操作. 相对于spark on hive,这个要实现起来则麻烦很多, 必须重新编译你的spark和导入jar包,不过目前大部分使用的是spark on hive

以上是关于什么是Hive on Spark的主要内容,如果未能解决你的问题,请参考以下文章

SparkSpark SQL 物化视图技术原理与实践

SparkSQL远程访问CDH集群Hive数据表

sparkspark sql

SparkSpark对数据的读入和写出操作

什么是Hive on Spark

Spark