HIVE的基本操作

Posted duan2

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HIVE的基本操作相关的知识,希望对你有一定的参考价值。

create table

  1. CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。
  2. EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
  3. LIKE 允许用户复制现有的表结构,但是不复制数据。
  4. 用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,Hive 通过 SerDe 确定表的具体的列的数据。
  5. 如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCE 。
  6. 有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。
  7. 表名和列名不区分大小写,SerDe 和属性名区分大小写。表和列的注释是字符串。

常用数据类型

目前在hive中常用的数据类型有:

   BIGINT – 主要用于状态,类别,数量的字段, 如status/option/type/quantity

   DOUBLE – 主要用于金额的字段, 如fee/price/bid

   STRING – 除上述之外的字段基本都使用String, 尤其是id和日期时间这样的字段

 基本例子

 

1、如果一个表已经存在,可以使用if not exists

 

2、 create table xiaojun(id int,cont string) row format delimited fields terminated by ‘\005‘ stored as textfile;

 

terminated by:关于来源的文本数据的字段间隔符

 

如果要将自定义间隔符的文件读入一个表,需要通过创建表的语句来指明输入文件间隔符,然后load data到这个表。

4、Alibaba数据库常用间隔符的读取

我们的常用间隔符一般是Ascii码5,Ascii码7等。在hive中Ascii码5用’\005’表示, Ascii码7用’\007’表示,依此类推。

5、装载数据

查看一下:Hadoop fs -ls

LOAD DATA INPATH ‘/user/admin/xiaojun/a.txt‘ OVERWRITE INTO TABLE xiaojun;

6、如果使用external建表和普通建表区别

A、指定一个位置,而不使用默认的位置。如:

create  EXTERNAL  table xiaojun(id int,cont string) row format delimited fields terminated by ‘\005‘ stored as textfile location ‘/user/admin/xiaojun/‘;

--------------check结果

ij> select LOCATION from tbls a,sds b where a.sd_id=b.sd_id and tbl_name=‘xiaojun‘;  

-----

LOCATION                                                                                                                        

--------------------------------------------------------------------------------------------------------------------------------

hdfs://hadoop1:7000/user/admin/xiaojun   

 

ij> select LOCATION from tbls a,sds b where a.sd_id=b.sd_id and tbl_name=‘c‘;

----

LOCATION                                                                                                                        

--------------------------------------------------------------------------------------------------------------------------------

hdfs://hadoop1:7000/user/hive/warehouse/c

B、对于使用create table external建表完成后,再drop掉表,表中的数据还在文件系统中。

如:

hive> create  EXTERNAL  table xiaojun(id int,cont string) row format delimited fields terminated by ‘\005‘ stored as textfile;

----

OK

 

hive> LOAD DATA INPATH ‘/user/admin/xiaojun‘ OVERWRITE INTO TABLE xiaojun;

--------------------------------------------------

Loading data to table xiaojun

OK

 

hive> drop table xiaojun;

----

OK

 

[[email protected] bin]$ ./hadoop fs -ls hdfs://hadoop1:7000/user/hive/warehouse/xiaojun

Found 1 items

使用普通的建表DROP后则找不到

创建分区

  HIVE的分区通过在创建表时启用partition by实现,用来partition的维度并不是实际数据的某一列,具体分区的标志是由插入内容时给定的。当要查询某一分区的内容时可以采用where语句,形似where tablename.partition_key > a来实现。

创建含分区的表。

CREATE TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT IP Address of the User)
 COMMENT This is the page view table
 PARTITIONED BY(dt STRING, country STRING)
 CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS
 ROW FORMAT DELIMITED
   FIELDS TERMINATED BY \001

 COLLECTION ITEMS TERMINATED BY ‘\002‘

   MAP KEYS TERMINATED BY ‘\003‘

 STORED AS SEQUENCEFILE;

Eg:
建表:
CREATE TABLE c02_clickstat_fatdt1
(yyyymmdd  string,
 id              INT,
 ip               string,
 country          string,
 cookie_id        string,
 page_id          string  ,  
 clickstat_url_id int,
 query_string     string,
 refer            string
)PARTITIONED BY(dt STRING)
row format delimited fields terminated by \005 stored as textfile;

装载数据:

LOAD DATA INPATH ‘/user/admin/SqlldrDat/CnClickstat/20101101/19/clickstat_gp_fatdt0/0‘ OVERWRITE INTO TABLE c02_clickstat_fatdt1

PARTITION(dt=‘20101101‘);

 

访问某一个分区

SELECT count(*)

    FROM c02_clickstat_fatdt1 a

    WHERE a.dt >= ‘20101101‘ AND a.dt < ‘20101102‘;

其它例子

1、指定LOCATION位置
CREATE EXTERNAL TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT IP Address of the User,
     country STRING COMMENT country of origination)
 COMMENT This is the staging page view table
 ROW FORMAT DELIMITED FIELDS TERMINATED BY \054
 STORED AS TEXTFILE
 LOCATION <hdfs_location>;
2、复制一个空表
CREATE TABLE empty_key_value_store
LIKE key_value_store;

Alter Table

2.2.1Add Partitions
ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION ‘location1‘ ] partition_spec [ LOCATION ‘location2‘ ] ...
partition_spec:
  : PARTITION (partition_col = partition_col_value, partition_col = partiton_col_value, ...)

Eg:
ALTER TABLE c02_clickstat_fatdt1 ADD PARTITION (dt=20101202) location /user/hive/warehouse/c02_clickstat_fatdt1/part20101202 PARTITION (dt=20101203) location /user/hive/warehouse/c02_clickstat_fatdt1/part20101203;
2.2.2Drop Partitions
ALTER TABLE table_name DROP partition_spec, partition_spec,...

ALTER TABLE c02_clickstat_fatdt1 DROP PARTITION (dt=20101202);
2.2.3Rename Table
ALTER TABLE table_name RENAME TO new_table_name
这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之,老的表名并未“释放”,对老表的更改会改变新表的数据。
2.2.4Change Column 
ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]
这个命令可以允许改变列名、数据类型、注释、列位置或者它们的任意组合
Eg:
2.2.5Add/Replace Columns
ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)

ADD是代表新增一字段,字段位置在所有列后面(partition列前);REPLACE则是表示替换表中所有字段。
Eg:
hive> desc xi;
OK
id      int
cont    string
dw_ins_date     string
Time taken: 0.061 seconds
hive> create table xibak like xi;                         
OK
Time taken: 0.157 seconds
hive> alter table xibak replace columns (ins_date string);   
OK
Time taken: 0.109 seconds
hive> desc xibak;
OK
ins_date        string
2.3Create View
CREATE VIEW [IF NOT EXISTS] view_name [ (column_name [COMMENT column_comment], ...) ]
[COMMENT view_comment]
[TBLPROPERTIES (property_name = property_value, ...)][??????]
AS SELECT ...

Show

查看表名
SHOW TABLES;

查看表名,部分匹配
SHOW TABLES page.*;
SHOW TABLES .*view;

查看某表的所有Partition,如果没有就报错:
SHOW PARTITIONS page_view;

查看某表结构:
DESCRIBE invites;

查看分区内容
SELECT a.foo FROM invites a WHERE a.ds[是列还是其他???]=2008-08-15;

查看有限行内容,同Greenplum,用limit关键词
SELECT a.foo FROM invites a limit 3;

查看表分区定义
DESCRIBE EXTENDED[什么意思???] page_view PARTITION (ds=2008-08-08);

Load

  HIVE装载数据没有做任何转换加载到表中的数据只是进入相应的配置单元表的位置移动数据文件。纯加载操作复制/移动操作。 

语法
LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

Load 操作只是单纯的复制/移动操作,将数据文件移动到 Hive 表对应的位置。

  • filepath 可以是:
    • 相对路径,例如:project/data1
    • 绝对路径,例如: /user/hive/project/data1
    • 包含模式的完整 URI,例如:hdfs://namenode:9000/user/hive/project/data1
  • 加载的目标可以是一个表或者分区。如果表包含分区,必须指定每一个分区的分区名。
  • filepath 可以引用一个文件(这种情况下,Hive 会将文件移动到表所对应的目录中)或者是一个目录(在这种情况下,Hive 会将目录中的所有文件移动至表所对应的目录中)。
  • 如果指定了 LOCAL,那么:
    • load 命令会去查找本地文件系统中的 filepath。如果发现是相对路径,则路径会被解释为相对于当前用户的当前路径。用户也可以为本地文件指定一个完整的 URI,比如:file:///user/hive/project/data1.
    • load 命令会将 filepath 中的文件复制到目标文件系统中。目标文件系统由表的位置属性决定。被复制的数据文件移动到表的数据对应的位置。
  • 如果没有指定 LOCAL 关键字,如果 filepath 指向的是一个完整的 URI,hive 会直接使用这个 URI。 否则:
    • 如果没有指定 schema 或者 authority,Hive 会使用在 hadoop 配置文件中定义的 schema 和 authority,fs.default.name 指定了 Namenode 的 URI。
    • 如果路径不是绝对的,Hive 相对于 /user/ 进行解释。
    • Hive 会将 filepath 中指定的文件内容移动到 table (或者 partition)所指定的路径中。
  • 如果使用了 OVERWRITE 关键字,则目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。
  • 如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。 
从本地导入数据到表格并追加原表
LOAD DATA LOCAL INPATH `/tmp/pv_2008-06-08_us.txt` INTO TABLE c02 PARTITION(date=2008-06-08, country=US)

从本地导入数据到表格并追加记录
LOAD DATA LOCAL INPATH ./examples/files/kv1.txt INTO TABLE pokes; 

从hdfs导入数据到表格并覆盖原表
LOAD DATA INPATH /user/admin/SqlldrDat/CnClickstat/20101101/18/clickstat_gp_fatdt0/0 INTO table c02_clickstat_fatdt1 OVERWRITE PARTITION (dt=20101201);

关于来源的文本数据的字段间隔符

如果要将自定义间隔符的文件读入一个表,需要通过创建表的语句来指明输入文件间隔符,然后load data到这个表就ok了。

Insert

Inserting data into Hive Tables from queries

Insert时,from子句既可以放在select子句后,也可以放在insert子句前,下面两句是等价的

hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(*) WHERE a.foo > 0 GROUP BY a.bar;
  hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(*) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;

hive没有直接插入一条数据的sql,不过可以通过其他方法实现:
假设有一张表B至少有一条数据,我们想向表Aintstring)中插入一条数据,可以用下面的方法实现:
from B
insert table A select  1‘abc’ limit 1

我觉得hive好像不能够插入一个记录,因为每次你写insert语句的时候都是要将整个表的值overwrite。我想这个应该是与hivestorage layer是有关系的,因为它的存储层是HDFS,插入一个数据要全表扫描,还不如用整个表的替换来的快些。

 

Hive不支持一条一条的用insert语句进行插入操作,也不支持update的操作。数据是以load的方式,加载到建立好的表中。数据一旦导入,则不可修改。要么drop掉整个表,要么建立新的表,导入新的数据。

 

 

Writing data into filesystem from queries

Standard syntax:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT ... FROM ...

Hive extension (multiple inserts):
FROM from_statement
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ..
导出文件到本地
INSERT OVERWRITE LOCAL DIRECTORY /tmp/local_out SELECT a.* FROM pokes a;

导出文件到HDFS
INSERT OVERWRITE DIRECTORY /user/admin/SqlldrDat/CnClickstat/20101101/19/clickstat_gp_fatdt0/0 SELECT a.* FROM c02_clickstat_fatdt1 a WHERE dt=20101201
一个源可以同时插入到多个目标表或目标文件,多目标insert可以用一句话来完成
FROM src
  INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
  INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
  INSERT OVERWRITE TABLE dest3 PARTITION(ds=2008-04-08, hr=12) SELECT src.key WHERE src.key >= 200 and src.key < 300
  INSERT OVERWRITE LOCAL DIRECTORY /tmp/dest4.out SELECT src.value WHERE src.key >= 300;

Eg:

from xi  

insert overwrite  table test2 select  ‘1,2,3‘ limit 1

insert overwrite  table d select  ‘4,5,6‘ limit 1;

 

 Hive Command line Options

$HIVE_HOME/bin/hive是一个shell工具,它可以用来运行于交互或批处理方式配置单元查询。

 Usage: hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]

  -i <filename>             Initialization Sql from file (executed automatically and silently before any other commands)
  -e quoted query string  Sql from command line
  -f <filename>             Sql from file
  -S                        Silent mode in interactive shell where only data is emitted
  -hiveconf x=y             Use this to set hive/hadoop configuration variables. 
  
   -e and -f cannot be specified together. In the absence of these options, interactive shell is started.  
   However, -i can be used with any other options.  Multiple instances of -i can be used to execute multiple init scripts.

   To see this usage help, run hive -h
运行一个查询: 
$HIVE_HOME/bin/ hive -e select count(*) from c02_clickstat_fatdt1
Example of setting hive configuration variables 
$HIVE_HOME/bin/hive -e select a.col from tab1 a -hiveconf hive.exec.scratchdir=/home/my/hive_scratch  -hiveconf mapred.reduce.tasks=32[]
将查询结果导出到一个文件 
HIVE_HOME/bin/hive -S -e  select count(*) from c02_clickstat_fatdt1 > a.txt
运行一个脚本 
HIVE_HOME/bin/hive -f /home/my/hive-script.sql
Example of running an initialization script before entering interactive mode 
HIVE_HOME/bin/hive -i /home/my/hive-init.sql

 

 Hive interactive Shell Command

Command     Description
quit    使用 quit or exit 退出
set <key>=<value>    使用这个方式来设置特定的配置变量的值。有一点需要注意的是,如果你拼错了变量名,CLI将不会显示错误。
set    这将打印的配置变量,如果没有指定变量则由显示HIVE和用户变量。如set I 则显示i的值,set则显示hive内部变量值
set -v    This will give all possible hadoop/hive configuration variables.
add FILE <value> <value>*    Adds a file to the list of resources.
list FILE    list all the resources already added
list FILE <value>*    Check given resources are already added or not.
! <cmd>    execute a shell command from hive shell
dfs <dfs command>    execute dfs command command from hive shell
<query string>     executes hive query and prints results to stdout

Eg:

  hive> set  i=32;

  hive> set i;

  hive> select a.* from xiaojun a;

  hive> !ls;

  hive> dfs -ls;

还可以这样用

hive> set $i=‘121.61.99.14.128160791368.5‘;

hive> select count(*) from c02_clickstat_fatdt1 where cookie_id=$i;

11

调用python、shell等语言

如下面这句sql就是借用了weekday_mapper.py对数据进行了处理

CREATE TABLE u_data_new (
  userid INT,
  movieid INT,
  rating INT,
  weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t‘;

add FILE weekday_mapper.py;

INSERT OVERWRITE TABLE u_data_new
SELECT
  TRANSFORM [](userid, movieid, rating, unixtime)
  USING ‘python weekday_mapper.py‘
  AS (userid, movieid, rating, weekday)
FROM u_data;

其中weekday_mapper.py内容如下

import sys
import datetime

for line in sys.stdin:
  line = line.strip()
  userid, movieid, rating, unixtime = line.split(‘\t‘)
  weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
  print ‘\t‘.join([userid, movieid, rating, str(weekday)])

如下面的例子则是使用了shell的cat命令来处理数据

FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING ‘/bin/cat‘ WHERE a.ds > ‘2008-08-09‘;

DROP

删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表,只删除元数据而保留数据。

Limit

Limit 可以限制查询的记录数。查询的结果是随机选择的。下面的查询语句从 t1 表中随机查询5条记录:

SELECT * FROM t1 LIMIT 5

 Top k

下面的查询语句查询销售记录最大的 5 个销售代表。

SET mapred.reduce.tasks = 1

  SELECT * FROM sales SORT BY amount DESC LIMIT 5

 

 Hive Select

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition] 
[GROUP BY col_list]
[   CLUSTER BY col_list
  | [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]

1Group By

基本语法:

groupByClause: GROUP BY groupByExpression (, groupByExpression)*

groupByExpression: expression

groupByQuery: SELECT expression (, expression)* FROM src groupByClause?

高级特性:

聚合可进一步分为多个表,甚至发送到Hadoop的DFS的文件(可以进行操作,然后使用HDFS的utilitites)。例如我们可以根据性别划分,需要找到独特的页面浏览量按年龄划分。如下面的例子:

 FROM pv_users

  INSERT OVERWRITE TABLE pv_gender_sum

    SELECT pv_users.gender, count(DISTINCT pv_users.userid)

    GROUP BY pv_users.gender

  INSERT OVERWRITE DIRECTORY ‘/user/facebook/tmp/pv_age_sum‘

    SELECT pv_users.age, count(DISTINCT pv_users.userid)

    GROUP BY pv_users.age; 

hive.map.aggr可以控制怎么进行汇总。默认为为true,配置单元会做的第一级聚合直接在MAP上的任务。这通常提供更好的效率,但可能需要更多的内存来运行成功。

Hive Join

Hive 只支持等值连接(equality joins)、外连接(outer joins)和(left/right joins)。Hive 不支持所有非等值的连接,因为非等值连接非常难转化到 map/reduce 任务。另外,Hive 支持多于 2 个表的连接。

join 查询时,需要注意几个关键点:

1、只支持等值join

例如:

  SELECT a.* FROM a JOIN b ON (a.id = b.id)

  SELECT a.* FROM a JOIN b

    ON (a.id = b.id AND a.department = b.department)

是正确的,然而:

  SELECT a.* FROM a JOIN b ON (a.id > b.id)

是错误的。

 

  1. 可以 join 多于 2 个表。

例如

  SELECT a.val, b.val, c.val FROM a JOIN b

    ON (a.key = b.key1) JOIN c ON (c.key = b.key2)

如果join中多个表的 join key 是同一个,则 join 会被转化为单个 map/reduce 任务,例如:

  SELECT a.val, b.val, c.val FROM a JOIN b

    ON (a.key = b.key1) JOIN c

    ON (c.key = b.key1)

被转化为单个 map/reduce 任务,因为 join 中只使用了 b.key1 作为 join key。

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1)

  JOIN c ON (c.key = b.key2)

而这一 join 被转化为 2 个 map/reduce 任务。因为 b.key1 用于第一次 join 条件,而 b.key2 用于第二次 join。

set hive.map.aggr=true;

SELECT COUNT(*) FROM table2;

PS:在要特定的场合使用可能会加效率。不过我试了一下,比直接使用False慢很多

 

1.1 Order /Sort By

Order by 语法:

colOrder: ( ASC | DESC )

orderBy: ORDER BY colName colOrder? (‘,‘ colName colOrder?)*

query: SELECT expression (‘,‘ expression)* FROM src orderBy

 

Sort By 语法:

Sort顺序将根据列类型而定。如果数字类型的列,则排序顺序也以数字顺序。如果字符串类型的列,则排序顺序将字典顺序。

colOrder: ( ASC | DESC )

sortBy: SORT BY colName colOrder? (‘,‘ colName colOrder?)*

query: SELECT expression (‘,‘ expression)* FROM src sortBy

3.join 时,每次 map/reduce 任务的逻辑:

    reducer 会缓存 join 序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中,应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)。例如:

 SELECT a.val, b.val, c.val FROM a

    JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

所有表都使用同一个 join key(使用 1 次 map/reduce 任务计算)。Reduce 端会缓存 a 表和 b 表的记录,然后每次取得一个 c 表的记录就计算一次 join 结果,类似的还有:

  SELECT a.val, b.val, c.val FROM a

    JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2)

这里用了 2 次 map/reduce 任务。第一次缓存 a 表,用 b 表序列化;第二次缓存第一次 map/reduce 任务的结果,然后用 c 表序列化。

 

4.LEFT,RIGHT 和 FULL OUTER 关键字用于处理 join 中空记录的情况。

例如:

  SELECT a.val, b.val FROM a LEFT OUTER

    JOIN b ON (a.key=b.key)

对应所有 a 表中的记录都有一条记录输出。输出的结果应该是 a.val, b.val,当 a.key=b.key 时,而当 b.key 中找不到等值的 a.key 记录时也会输出 a.val, NULL。“FROM a LEFT OUTER JOIN b”这句一定要写在同一行——意思是 a 表在 b 表的左边,所以 a 表中的所有记录都被保留了;“a RIGHT OUTER JOIN b”会保留所有 b 表的记录。OUTER JOIN 语义应该是遵循标准 SQL spec的。

Join 发生在 WHERE 子句之前。如果你想限制 join 的输出,应该在 WHERE 子句中写过滤条件——或是在 join 子句中写。这里面一个容易混淆的问题是表分区的情况:

  SELECT a.val, b.val FROM a

  LEFT OUTER JOIN b ON (a.key=b.key)

  WHERE a.ds=‘2009-07-07‘ AND b.ds=‘2009-07-07‘

join a 表到 b 表(OUTER JOIN),列出 a.val 和 b.val 的记录。WHERE 从句中可以使用其他列作为过滤条件。但是,如前所述,如果 b 表中找不到对应 a 表的记录,b 表的所有列都会列出 NULL,包括 ds 列。也就是说,join 会过滤 b 表中不能找到匹配 a 表 join key 的所有记录。这样的话,LEFT OUTER 就使得查询结果与 WHERE 子句无关了。解决的办法是在 OUTER JOIN 时使用以下语法:

  SELECT a.val, b.val FROM a LEFT OUTER JOIN b

  ON (a.key=b.key AND

      b.ds=‘2009-07-07‘ AND

      a.ds=‘2009-07-07‘)

这一查询的结果是预先在 join 阶段过滤过的,所以不会存在上述问题。这一逻辑也可以应用于 RIGHT 和 FULL 类型的 join 中。

Join 是不能交换位置的。无论是 LEFT 还是 RIGHT join,都是左连接的。

  SELECT a.val1, a.val2, b.val, c.val

  FROM a

  JOIN b ON (a.key = b.key)

  LEFT OUTER JOIN c ON (a.key = c.key)

join a 表到 b 表,丢弃掉所有 join key 中不匹配的记录,然后用这一中间结果和 c 表做 join。这一表述有一个不太明显的问题,就是当一个 key 在 a 表和 c 表都存在,但是 b 表中不存在的时候:整个记录在第一次 join,即 a JOIN b 的时候都被丢掉了(包括a.val1,a.val2和a.key),然后我们再和 c 表 join 的时候,如果 c.key 与 a.key 或 b.key 相等,就会得到这样的结果:NULL, NULL, NULL, c.val。

 

5.LEFT SEMI JOIN  IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

  SELECT a.key, a.value

  FROM a

  WHERE a.key in

   (SELECT b.key

    FROM B);

可以被重写为:

   SELECT a.key, a.val

   FROM a LEFT SEMI JOIN b on (a.key = b.key)

 

HIVE参数设置

 

  开发Hive应用时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。然而实践中经常遇到的一个问题是,为什么设定的参数没有起作用?

 

这通常是错误的设定方式导致的。

 

对于一般参数,有以下三种设定方式:

 

  • 配置文件 
  • 命令行参数 
  • 参数声明 

 

配置文件Hive的配置文件包括

 

  • 用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xml
  • 默认配置文件:$HIVE_CONF_DIR/hive-default.xml

 

用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hadoop的配置文件包括

 

  • $HADOOP_CONF_DIR/hive-site.xml
  • $HADOOP_CONF_DIR/hive-default.xml

 

Hive的配置会覆盖Hadoop的配置。

 

配置文件的设定对本机启动的所有Hive进程都有效。

 

命令行参数:启动Hive(客户端或Server方式)时,可以在命令行添加-hiveconf param=value来设定参数,例如:

 

bin/hive -hiveconf hive.root.logger=INFO,console

 

这一设定对本次启动的Session(对于Server方式启动,则是所有请求的Sessions)有效。

 

参数声明:可以在HQL中使用SET关键字设定参数,例如:

 

set mapred.reduce.tasks=100;

 

这一设定的作用域也是Session级的。

 

上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。注意某些系统级的参数,例如log4j相关的设定,必须用前两种方式设定,因为那些参数的读取在Session建立以前已经完成了。

 

另外,SerDe参数必须写在DDL(建表)语句中。例如:

 

create table if not exists t_dummy(

 

dummy string

 

)

 

ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe‘

 

WITH SERDEPROPERTIES (

 

‘field.delim‘=‘\t‘,

 

‘escape.delim‘=‘\\‘,

 

‘serialization.null.format‘=‘ ‘

 

) STORED AS TEXTFILE;

 

类似serialization.null.format这样的参数,必须和某个表或分区关联。在DDL外部声明将不起作用。

 

以上是关于HIVE的基本操作的主要内容,如果未能解决你的问题,请参考以下文章

VSCode自定义代码片段15——git命令操作一个完整流程

VSCode自定义代码片段15——git命令操作一个完整流程

Apache Hive 基本理论与安装指南

Hive数据仓库--Java代码JDBC方式访问Hive中表的数据

VSCode 如何操作用户自定义代码片段(快捷键)

Apollo Codegen 没有找到生成代码的操作或片段