hive提供的是啥服务

Posted 2023-04-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hive提供的是啥服务相关的知识，希望对你有一定的参考价值。

参考技术A

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

简介

hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容。

这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而mapreduce开发人员可以把自己写的mapper和reducer作为插件来支持hive做更复杂的数据分析。它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。

它还提供了一系列的工具进行数据提取转化加载，用来存储、查询和分析存储在Hadoop中的大规模数据集，并支持UDF（User-Defined Function）、UDAF(User-Defined AggregateFunction)和UDTF（User-Defined Table-Generating Function），也可以实现对map和reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性。

Hive基础之Hive是啥以及Hive使用场景

参考技术A Hive是什么
1）Hive
是建立在Hadoop
(HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库；
2）一种可以存储、查询和分析存储在Hadoop
中的大规模数据的机制；
3）Hive
定义了简单的类SQL
查询语言，称为HQL，它允许熟悉SQL
的用户查询数据；
4）允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作；
5）Hive没有专门的数据格式（分隔符等可以自己灵活的设定）；
ETL的流程（Extraction-Transformate-Loading）：将关系型数据库的数据抽取到HDFS上，hive作为数据仓库，经过hive的计算分析后，将结果再导入到关系型数据库的过程。
Hive是构建在Hadoop之上的数据仓库
1）使用HQL作为查询接口；
2）使用HDFS作为存储；
3）使用MapReduce作为计算；
Hive应用场景
数据源：
1）文件数据，如中国移动某设备每天产生大量固定格式的文件；
2）数据库
以上两种不同的数据源有个共同点：要使用hive，那么必须要将数据放到hive中；通常采用如下两种方式：
1）文件数据：load到hive
2）数据库:
sqoop到hive
数据的离线处理；
hive的执行延迟比较高，因为hive常用于数据分析的，对实时性要求不高；
hive优势在于处理大数据，对于处理小数据没有优势，因为hive的执行延迟比较高。
处理数据存放在hive表中，那么前台系统怎么去访问hive的数据呢？
先将hive的处理结果数据转移到关系型数据库中才可以，sqoop就是执行导入导出的操作

以上是关于hive提供的是啥服务的主要内容，如果未能解决你的问题，请参考以下文章