60分钟内从零起步驾驭Hive实战

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了60分钟内从零起步驾驭Hive实战相关的知识,希望对你有一定的参考价值。

内容:

1、Hive本质解析;

2、Hive安装实战;

3、使用Hive操作搜索引擎数据实战;

==========Hive本质到底是什么?============

1、Hive是分布式数据仓库,同时又是查询引擎,所以 Spark SQL取代只是Hive 查询引擎,在企业实际生产环境下 Hive + Spark SQL是目前最为经典的数据分析组合;

2、Hive本身就是一个简单单机版本的软件,主要负责:

1)    把HQL翻译成Mapper(s)-Reducer-Mapper(s)的代码; 并且可能产生很多MapReduce的Job;

2)    把生产的MapReduce代码及相关资源打包成为Jar并发布到Hadoop集群中且进行运行(这一切都是自动的);

3、Hive本身的架构如下所示:

技术分享

==========Hive安装和配置实战============

1、我们使用的 Hive 1.2.1版本;

2、Hive默认情况下放元数据的是 Derby,遗憾的是Derby 是单用户,所以在生产环境下一般会采用支持多用户的数据库来进行 Meta Store,且进行Master-Slaves 主从读写分离和备份;我们最常使用 mysql

3、在hive-site.xml中指定Hive数据仓库的具体存储:

<property>

                <name>hive.metastore.warehouse.dir</name>

                <value>/user/hive/warehouse</value>

                <description>location of default database for the warehouse</description>

        </property>

4、MySQL的安装和配置;

5、Hive的表有两种基本类型:一种内部表(这种表数据属于 Hive本身,言外之意是如果原来的数据在 HDFS的其它地方,此时数据会通过 HDFS移动到Hive 数据仓库所在的目录,如果删除 Hive中的该表的话数据和元数据均会被删除)另外一种属于外部表(这种表数据不属于 Hive数据仓库,元数据中会表达具体数据在哪里,使用的时候和内部表的使用是一样的,只是如果通过 Hive去删除的话,此时删除的只是元数据,本没有删除数据本身);

==========使用Hive操作搜索引擎数据实战 ============

王家林老师名片:

中国Spark第一人

新浪微博:http://weibo.com/ilovepains

微信公众号:DT_Spark

博客:http://blog.sina.com.cn/ilovepains

手机:18610086859

QQ:1740415547

邮箱:[email protected]


本文出自 “一枝花傲寒” 博客,谢绝转载!

以上是关于60分钟内从零起步驾驭Hive实战的主要内容,如果未能解决你的问题,请参考以下文章

10分钟数仓实战kettle整合hive

独享下载 |Spark企业级实战与Hadoop实战 | PDF& PPT下载!

Hive实战

Flink实战之Kafka To Hive

大数据仓库Hive实战视频教程-HIVE完美入门学习视频教程 HIVE教程 HIVE从入门到精通

Hive实战