Apache Hive 的实际行业应用都有哪些?

Posted

技术标签:

【中文标题】Apache Hive 的实际行业应用都有哪些?【英文标题】:What are the practical industry applications of Apache Hive?Apache Hive 的实际行业应用有哪些? 【发布时间】:2018-02-09 05:14:41 【问题描述】:

在过去的一个月里,我一直在研究 Apache Hive,我设法找到的只是说明什么是 Hive(由 Apache 编写)、如何安装以及如何在其中创建表的文章。

我从来没有发现任何东西表明它在行业中的实际实际用途,即使是在小品牌公司中也是如此。 与其他数据仓库/数据库相比,Hive 在业界真的没有那么受欢迎吗?

【问题讨论】:

【参考方案1】:

Apache Hive 是第一个“SQL on Hadoop”框架,可将您的 SQL 查询转换为 Map-Reduce 作业。

它更适用于批处理类型,而不是交互式响应时间。 (我会在本次讨论之外留下更多的 Hive on Spark、Hive on Tez 等)

我们在 ELT 管道中使用 Hive(连同 Spark)来摄取原始数据集并将其转换为“数据库”,然后进一步转换为 Hadoop 环境中的数据集市。我们对这些桌子的 Parquet 进行了标准化处理。

对于 BI 仪表板,Impala 正在查询这些数据集市。其他一些生产作业使用 Spark SQL。 Impala 和 Spark SQL 都是另一种“SQL on Hadoop”方言(就像 Hive),可用于访问“大数据”/hadoop 数据集。

话虽如此,我们仍然在相同的项目中使用更多的传统数据仓库(在我们的案例中使用 Oracle),但我们只能将数据子集推送到那里(因为这些传统方法的大小/性能限制)。

对于您的问题“即使在小品牌公司中” - 我认为如果这里的关键字是“小”,那么您不一定需要 Hive(也许任何其他“大数据”技术)。如果数据集很小并且不一定需要更具可扩展性的大数据技术,那么您应该可以很好地使用更传统的数据库进行开发工作,甚至可能更有效率。

【讨论】:

【参考方案2】:

我们使用 Tez 上的 Hive 以及用于 ETL 的其他工具(如 Spark、sqoop 等)在 15Pb 仓库中构建数据集市。

除了 Hive 之外,我从未能够在某个数据库的单个查询中连接 500 亿行数据。 Hive 几乎可以无限扩展。

【讨论】:

以上是关于Apache Hive 的实际行业应用都有哪些?的主要内容,如果未能解决你的问题,请参考以下文章

hive中如何查看A库中都有哪些表?这表里都有哪些列?

Hive实际应用小结

FPGA都有哪些实际应用?

查询hive中都有哪些自定义函数

Hive 中推荐的优化技术都有哪些?

hive 怎么查表都有哪些分区