Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作?

Posted

技术标签:

【中文标题】Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作?【英文标题】:Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - How do they all work with each other? 【发布时间】:2020-06-11 12:51:18 【问题描述】:

我很困惑应该使用哪种组合来实现我的目标,我需要将数据存储在 HDFS 中并需要根据查询的数据执行分析。

对此有一些疑问:

    如果我将 hive 与 hadoop 一起使用,那么它将使用 map reduce,这会降低我的查询速度。(因为我使用 hadoop HDFS 在这里用于数据存储) 如果我使用 spark 引擎来评估我的查询,而不是 hadoop,它会更快,但 HDFS 呢?我将不得不创建另一个 hadoop 集群来将数据存储在 HDFS 中。 如果我们有 spark sql,那么 hive 需要什么? 如果我使用 spark sql 那么它将如何连接到 HDFS?

如果有人可以解释这些工具的用法。 谢谢!!

【问题讨论】:

【参考方案1】:
    您可以在 Spark 上使用 Hive。 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark 您不需要创建另一个 Hadoop 集群。 Spark 可以从 HDFS 访问数据。 Spark 可以与 Hive 一起使用,也可以不与 Hive 一起使用。 Spark 可以连接到多个数据源,包括 HDFS。

【讨论】:

以上是关于Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作?的主要内容,如果未能解决你的问题,请参考以下文章

主节点连接hiveserver2报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop01:10000:

hive vs hbase

hiveserver2连接出错如下:Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop01:10000:

Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000:

报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: Failed to open

Spring boot with Hive