Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作?
Posted
技术标签:
【中文标题】Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作?【英文标题】:Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - How do they all work with each other? 【发布时间】:2020-06-11 12:51:18 【问题描述】:我很困惑应该使用哪种组合来实现我的目标,我需要将数据存储在 HDFS 中并需要根据查询的数据执行分析。
对此有一些疑问:
-
如果我将 hive 与 hadoop 一起使用,那么它将使用 map reduce,这会降低我的查询速度。(因为我使用 hadoop HDFS 在这里用于数据存储)
如果我使用 spark 引擎来评估我的查询,而不是 hadoop,它会更快,但 HDFS 呢?我将不得不创建另一个 hadoop 集群来将数据存储在 HDFS 中。
如果我们有 spark sql,那么 hive 需要什么?
如果我使用 spark sql 那么它将如何连接到 HDFS?
如果有人可以解释这些工具的用法。 谢谢!!
【问题讨论】:
【参考方案1】:-
您可以在 Spark 上使用 Hive。 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark
您不需要创建另一个 Hadoop 集群。 Spark 可以从 HDFS 访问数据。
Spark 可以与 Hive 一起使用,也可以不与 Hive 一起使用。
Spark 可以连接到多个数据源,包括 HDFS。
【讨论】:
以上是关于Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作?的主要内容,如果未能解决你的问题,请参考以下文章
主节点连接hiveserver2报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop01:10000:
hiveserver2连接出错如下:Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop01:10000:
Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000:
报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: Failed to open