01_Hive简介及其工作机制
Posted yaboya
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了01_Hive简介及其工作机制相关的知识,希望对你有一定的参考价值。
1.Hive简介
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个表。并提供类SQL查询功能,
可以将sql语句转换为MapReduce任务运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce
统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析
2.数据仓库(面向主题、历史):
数据库是用来支撑在线联机业务的。如页面上数据的展示,保存客户操作产生的数据。这类要求变更是实时的、
事务的。
数据仓库:如果联机数据库中的数据太大了,需要将历史信息导入到离线的仓库中。数据仓库中可以存入各种
业务系统的数据,并按照一定主题来组织这些数据表。数据仓库中的数据一般用来做统计,数据分析。比如统计年
度销售额,月度销售额,广告推荐等
3.Hive的工作机制:
将清洗过的数据放入到HDFS中,就可进行各种统计了。但有些需求用MapReduce写起来非常难,所以有了Hive
以上是关于01_Hive简介及其工作机制的主要内容,如果未能解决你的问题,请参考以下文章
2021年大数据HBase(十四):HBase的原理及其相关的工作机制
Hadoop--09---MapReduce_04----MapReduce工作流程Shuffle 机制Partition 分区