Spark 与 Hive 的集成

Posted

技术标签:

【中文标题】Spark 与 Hive 的集成【英文标题】:Spark Integration with hive 【发布时间】:2020-01-06 06:39:36 【问题描述】:

目前在我们的项目中,我们使用的是 HDInsights 3.6,其中我们默认启用了 spark 和 hive 集成,因为它们共享相同的目录。现在我们要迁移 HDInsights 4.0,其中 spark 和 hive 将具有不同的目录。我浏览了 Microsoft 文档 (https://docs.microsoft.com/en-us/azure/hdinsight/interactive-query/apache-hive-warehouse-connector),我们需要在 Hive 仓库连接器的帮助下集成额外的集群。现在我想知道是否有任何其他方法而不是使用额外的集群。任何建议都会非常受欢迎。 谢谢

【问题讨论】:

【参考方案1】:

如果您使用外部表,它们可以将 Spark 和 Hive 指定为使用相同的元存储。这仅适用于外部表。

【讨论】:

以上是关于Spark 与 Hive 的集成的主要内容,如果未能解决你的问题,请参考以下文章

spark集成hbase与hive数据转换与代码练习

通过配置hive-site.xml文件实现Hive集成Spark

通过配置hive-site.xml文件实现Hive集成Spark

通过配置hive-site.xml文件实现Hive集成Spark

Spark - 结构值的 Hive 集成 - NULL 输出

spark集成hivecontext配置