大数据大数据仓库Hive从入门到精通视频教程

Posted 2021-04-29 不省事的小码哥

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据大数据仓库Hive从入门到精通视频教程相关的知识，希望对你有一定的参考价值。

终于迎来中秋假期了，小码哥提前祝各位中秋快乐。古话说得好啊，只要胆子大，中秋国庆半月假。小伙伴们有没有用假期连放出去旅游的，没请到假期连放的也不要难过，毕竟还有小码哥陪着你呀。进入正题，hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。收集整理了一套大数据仓库Hive从入门到精通的视频教程，共1G，欢迎下载。

【大数据】大数据仓库Hive从入门到精通视频教程

为什么是hive

Hive最适合于数据仓库应用程序，使用该应用程序进行相关的静态数据分析，不需要快速响应给出结果，而且数据本身不会频繁变化。

Hive不是一个完整的数据库。Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所胜任的工作。其中最大的限制就是Hive不支持记录级别更新、插入、或者删除操作。但是用户可以通过查询生成新表或者将查询结果导入文件中。同时，因为Hadoop是一个面向批处理的系统，而MapReduce任务（Job）的启动过程需要消耗较长的时间，所以Hive查询延时比较严重。传统数据库中在秒级别可以完成的查询，在Hive中，即使数据集相对较小，往往也需要执行更长的时间。最后需要说明的是，Hive不支持事务。

因此，Hive不支持OLTP(联机事务处理)所需要的关键功能，而更接近成为一个OLAP（连接分析处理）工具。但是我们看到，由于Hadoop本身的时间开销很大，并且Hadoop所被设计用来处理数据规模非常大，因此提交查询和返回结果是可能具有非常大的延时的，所以Hive并没有满足OLAP中“联机”部分，至少目前没有满足。

如果用户需要对大规模的数据使用OLTP功能的话，那么应该选择使用一个NoSQL数据库，例如，和Hadoop解释使用的HBase以及Cassandra。如果用户使用的是Amazon弹性MapReduce计算系统（EMR）或者弹性计算云服务（EC2）的话，也可以使用DynamoDB。用户甚至可以和这些数据库（包括其他的一些数据库）结合来使用Hive。

因此，Hive是最适合数据库仓应用程序的，其可以维护海量数据，而且可以对数据进行挖掘，然后形成意见和报告等。

【大数据】大数据仓库Hive从入门到精通视频教程

如果对你有用，点个赞支持下吧！

以上是关于大数据大数据仓库Hive从入门到精通视频教程的主要内容，如果未能解决你的问题，请参考以下文章

视频教程:hadoop基础及演练 hadoop视频教程 hadoop从入门到精通的学习