技术贴hadoop之hive数据仓库的常用语句,请随时翻阅
Posted 好程序员
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了技术贴hadoop之hive数据仓库的常用语句,请随时翻阅相关的知识,希望对你有一定的参考价值。
机器学习和人工智能越发越热,大数据的浪潮越掀越高。随着数据量的增大,传统的关系型数据库已经无法满足当前的计算要求,进而转型数据集群,分布式并发处理,在提高计算效率的同时也加大了存储容量。
在大数据的前景下,hive无疑是数据仓库的最佳选择之一,hive是hadoop生态圈中数据仓库工具,它会将sql语句转化成MapReduce去查询存储在HDFS上的数据。
今天给大家列举一些hive的常用操作:
hadoop fs -put test.txt /warehouse/hive/tableName/ --将数据文件test.txt放到hdfs中
hadoop fs -ls /warehouse/hive/tableName/ --查看表(tableName)下hdfs文件清单
hadoop fs -cat /warehouse/hive/tableName/test.txt --查看表中test.txt 文件的内容
hadoop fs -zcat /warehouse/hive/tableName/test.gz --查看表中压缩文件的内容
hadoop fs -cat /warehouse/hive/tableName/test.txt |wc -l --查看文件的条数
另外介绍几个常用的hive函数:
cast(expr as <type>) 类型转换函数 例:cast(int_Str as char(2))
nvl(str, default_value) 若str为null值则返回default_value 否则返回str 例:nvl(str,0)
length(string A) 返回字符串的长度
explode(array<TYPE> a) 表生成函数,可以用来将行转列 例:select explode(array(1,2,3)) from .... 结果就是1,2,3每个元素作为一行显示
最后给大家说一点注意事项:hive是分布式多节点来处理数据,所以在写sql语句时要慎用order by 语句,此语句会在MapReduce的reduce阶段进行排序,并且通过一个reducer进行处理,所以数据量较大时执行效率比较低。hive增加了一个可供选择的方式那就是sort by,保证每个reducer输出的数据是有序的,这样后面的全局排序效率会高很多。
今天先给大家列举了一些比较基础的知识点,之后会持续发布hive相关内容,请大家持续关注。别忘了关注和收藏哦!
好程序员大数据二期班9月4日开班
本期优惠5000元
大家好,我是好程序员。
是“千锋互联”与“中关村国际孵化软件协会”的宝贝儿子。自打我出生以来,就肩负着拯救移动互联网行业高端研发人才匮乏问题的重任,我的四大法宝有android、ios、Java、大数据的高端课程。如果你是具有一定基础的“优良品种”,赶快来找我,我会把你妥妥地保送到IT大佬的怀抱之中。
以上是关于技术贴hadoop之hive数据仓库的常用语句,请随时翻阅的主要内容,如果未能解决你的问题,请参考以下文章