HIVE和HADOOP的一些东西

Posted 凯文の博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HIVE和HADOOP的一些东西相关的知识,希望对你有一定的参考价值。

今天刚上班就要更新一个hive表(新年好呀我想说...),由于建立的外表直接替换hdfs文件就行了,但是替换完发现少了二行数据,原来之前做了关联,这就要用到hive的insert了!

先来说一下hive的外部表:

1、在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自己来管理的!而管理表则不一样; 
2、在删除管理表的时候,Hive将会把属于表的元数据和数据全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据是不会删除的!

而这些表的更新可以和线上的表进行关联更新,也可以自己get下来进行更新,误删也不会影响文件,多好。

再来说一下insert into和insert overwrite的区别,

1. insert into table tablename
select * from a
left jion a
on a.something=b.something;

2. insert overwrite table tablename
select * from a 
left jion a
on a.something=b.something;

insert into的话是直接插入,insert overwrite的话也是插入但是会覆盖原始数据。

还有一个遇到的问题是从windows上打开看着好好的东西上传到hdfs上面用hadoop fs -cat /data/..

发现中文乱码,纠结了很久用editplus这个软件修改文件为utf-8编码,最好也修改一下这里:

 

 

以上是关于HIVE和HADOOP的一些东西的主要内容,如果未能解决你的问题,请参考以下文章

关于 Hadoop 和 Hive 和 Presto 的问题

《hadoop权威指南》关于hive的第一个小例子的演示

hive和hbase有啥关系和区别

如何在 Windows 8 中安装 hadoop

干货达观数据分析平台架构和Hive实践

Hadoop内hive之间,hive与DBES等之间数据交互的问题与解决方案