Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作？

Posted 2023-04-17

技术标签:

【中文标题】Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作？【英文标题】：Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - How do they all work with each other? 【发布时间】：2020-06-11 12:51:18 【问题描述】：

我很困惑应该使用哪种组合来实现我的目标，我需要将数据存储在 HDFS 中并需要根据查询的数据执行分析。

对此有一些疑问：

如果我将 hive 与 hadoop 一起使用，那么它将使用 map reduce，这会降低我的查询速度。（因为我使用 hadoop HDFS 在这里用于数据存储）如果我使用 spark 引擎来评估我的查询，而不是 hadoop，它会更快，但 HDFS 呢？我将不得不创建另一个 hadoop 集群来将数据存储在 HDFS 中。如果我们有 spark sql，那么 hive 需要什么？如果我使用 spark sql 那么它将如何连接到 HDFS？

如果有人可以解释这些工具的用法。谢谢！！

【问题讨论】：

【参考方案1】：

您可以在 Spark 上使用 Hive。 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark 您不需要创建另一个 Hadoop 集群。 Spark 可以从 HDFS 访问数据。 Spark 可以与 Hive 一起使用，也可以不与 Hive 一起使用。 Spark 可以连接到多个数据源，包括 HDFS。

【讨论】：

以上是关于Hive with Hadoop vs Hive with spark vs spark sql vs HDFS - 它们如何相互协作？的主要内容，如果未能解决你的问题，请参考以下文章

主节点连接hiveserver2报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop01:10000:

hive vs hbase

hiveserver2连接出错如下：Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop01:10000:

Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop1:10000:

报错Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: Failed to open

Spring boot with Hive