技术贴hadoop之hive数据仓库的常用语句,请随时翻阅

Posted 好程序员

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了技术贴hadoop之hive数据仓库的常用语句,请随时翻阅相关的知识,希望对你有一定的参考价值。


机器学习和人工智能越发越热,大数据的浪潮越掀越高。随着数据量的增大,传统的关系型数据库已经无法满足当前的计算要求,进而转型数据集群,分布式并发处理,在提高计算效率的同时也加大了存储容量。

在大数据的前景下,hive无疑是数据仓库的最佳选择之一,hivehadoop生态圈中数据仓库工具,它会将sql语句转化成MapReduce去查询存储在HDFS上的数据。

今天给大家列举一些hive的常用操作:

hadoop fs -put test.txt /warehouse/hive/tableName/ --将数据文件test.txt放到hdfs

hadoop fs -ls /warehouse/hive/tableName/ --查看表(tableName)hdfs文件清单

hadoop fs -cat /warehouse/hive/tableName/test.txt --查看表中test.txt 文件的内容

hadoop fs -zcat /warehouse/hive/tableName/test.gz --查看表中压缩文件的内容

hadoop fs -cat /warehouse/hive/tableName/test.txt |wc -l --查看文件的条数

另外介绍几个常用的hive函数:

cast(expr as <type>) 类型转换函数 例:cast(int_Str as char(2))

nvl(str, default_value) strnull值则返回default_value 否则返回str 例:nvl(str,0)

length(string A) 返回字符串的长度

explode(array<TYPE> a) 表生成函数,可以用来将行转列 例:select explode(array123) from .... 结果就是123每个元素作为一行显示

最后给大家说一点注意事项:hive是分布式多节点来处理数据,所以在写sql语句时要慎用order by 语句,此语句会在MapReducereduce阶段进行排序,并且通过一个reducer进行处理,所以数据量较大时执行效率比较低。hive增加了一个可供选择的方式那就是sort by,保证每个reducer输出的数据是有序的,这样后面的全局排序效率会高很多。


今天先给大家列举了一些比较基础的知识点,之后会持续发布hive相关内容,请大家持续关注。别忘了关注和收藏哦!


【技术贴】hadoop之hive数据仓库的常用语句,请随时翻阅


【技术贴】hadoop之hive数据仓库的常用语句,请随时翻阅

程序员大数据二期班9月4日开班

本期优惠5000



大家好,我是好程序员。
是“千锋互联”与“中关村国际孵化软件协会”的宝贝儿子。自打我出生以来,就肩负着拯救移动互联网行业高端研发人才匮乏问题的重任,我的四大法宝有androidios、Java、大数据的高端课程。如果你是具有一定基础的“优良品种”,赶快来找我,我会把你妥妥地保送到IT大佬的怀抱之中。 





以上是关于技术贴hadoop之hive数据仓库的常用语句,请随时翻阅的主要内容,如果未能解决你的问题,请参考以下文章

电商数据仓库项目简介

在hive仓库中建贴源数据表

Hadoop之Hive查询语句

全栈数据之Hive中常用统计分析函数

Hadoop 部署之 Hive

数据仓库工具之Hive的架构原理