Hive数据类型	Impala数据类型	长度
TINYINT	TINYINT	1byte有符号整数
SMALINT	SMALINT	2byte有符号整数
INT	INT	4byte有符号整数
BIGINT	BIGINT	8byte有符号整数
BOOLEAN	BOOLEAN	布尔类型，true或者false
FLOAT	FLOAT	单精度浮点数
DOUBLE	DOUBLE	双精度浮点数
STRING	STRING	字符系列。可以指定字符集。可以使用单引号或者双引号。
TIMESTAMP	TIMESTAMP	时间类型
BINARY	不支持	字节数组

这里需要注意的是，Impala虽然支持array，map，struct复杂数据类型，但是支持并不完全。

二、Impala的操作命令

2.1 Impala的外部shell

选项	描述
-h, --help	显示帮助信息
-v or --version	显示版本信息
-i hostname, --impalad=hostname	指定连接运行 impalad 守护进程的主机。默认端口是 21000。
-q query, --query=query	从命令行中传递一个shell 命令。执行完这一语句后 shell 会立即退出。
-f query_file, --query_file= query_file	传递一个文件中的 SQL 查询。文件内容必须以分号分隔
-o filename or --output_file filename	保存所有查询结果到指定的文件。通常用于保存在命令行使用 -q 选项执行单个查询时的查询结果。
-c	查询执行失败时继续执行
-d default_db or --database=default_db	指定启动后使用的数据库，与建立连接后使用use语句选择数据库作用相同，如果没有指定，那么使用default数据库
-r or --refresh_after_connect	建立连接后刷新 Impala 元数据
-p, --show_profiles	对 shell 中执行的每一个查询，显示其查询执行计划
-B（--delimited）	去格式化输出
--output_delimiter=character	指定分隔符
--print_header	打印列名

2.2 Impala的内部shell

选项	描述
help	显示帮助信息
explain <sql>	显示执行计划
profile	(查询完成后执行）查询最近一次查询的底层信息
shell <shell>	不退出impala-shell执行shell命令
version	显示版本信息（同于impala-shell -v）
connect	连接impalad主机，默认端口21000（同于impala-shell -i）
refresh <tablename>	增量刷新元数据库
invalidate metadata	全量刷新元数据库（慎用）（同于 impala-shell -r）
history	历史命令

三、Impala的DDL数据定义语言

3.1 数据库操作

3.1.1 创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name
  [COMMENT database_comment]
  [LOCATION hdfs_path];

这里需要注意的是，Impala不支持WITH DBPROPERTIE语法。

3.1.2 显示数据库

3.1.3 删除数据库

这里需要注意的是，当数据库在使用时是无法drop掉的。

3.2 表操作

3.2.1 内部表

create table if not exists people(
id int,
name string
)
row format delimited fields terminated by '\\t'
stored as textfile
location '/user/hive/warehouse/people';

3.2.2 外部表

create external table external_people(
id int, 
name string) 
row format delimited fields terminated by '\\t' ;

3.2.3 分区表

1、创建表

create table stu_par(id int, name string)
partitioned by (month string)
row format delimited 
fields terminated by '\\t';

2、插入数据

alter table stu_par add partition (month='201810');
load data inpath '/student.txt' into table stu_par partition(month='201810');

insert into table stu_par partition (month = '201811');

这里需要注意的是，如果分区没有，load data导入数据时，不能自动创建分区。

3、增加分区

alter table stu_par add partition (month='201812') partition (month='201813');

4、删除分区

alter table stu_par drop partition (month='201812');

5、查看分区

show partitions stu_par;

四、Impala的DML数据操作语言

4.1 数据导入

数据导入跟Hive的大同小异，可以参考Hive数据导入的操作，请点击这里。不过，同样需要注意的是，impala不支持load data local inpath，即它只能加载HDFS上面的文件。

4.2 数据导出

Impala不支持export和import命令，Impala数据导出一般使用impala -o命令。

impala-shell -q 'select * from student' -B --output_delimiter="\\t" -o output.txt

4.3 查询

Impala的查询语法跟Hive的查询语句大体一样，可以参考Hive的查询语句。Impala不支持CLUSTER BY、DISTRIBUTE BY、SORT BY，Impala中不支持分桶表，不支持COLLECT_SET(col)和explode(col)函数，但是Impala支持开窗函数。

五、函数

5.1 自定义函数

1、添加依赖

<dependencies>
		<!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
		<dependency>
			<groupId>org.apache.hive</groupId>
			<artifactId>hive-exec</artifactId>
			<version>1.2.1</version>
		</dependency>
</dependencies>

2、创建一个自定义函数类

package com.xzw.hive;

import org.apache.hadoop.hive.ql.exec.UDF;

/**
 * @author: xzw
 * @create_date: 2020/12/20 11:05
 * @desc: 将字符串转换为小写
 * @modifier:
 * @modified_date:
 * @desc:
 */
public class Lower extends UDF 

    /**
     * 执行计算的方法
     * @param orig 原始字符串
     * @return 返回转换为小写的字符串
     */
    public String evaluate(String orig) 
        if (null == orig)
            return null;

        return orig.toLowerCase();
    

    public static void main(String[] args)

3、打包并上传到HDFS指定的目录

hdfs dfs -put impala_udf.jar /xzw/

4、创建函数

create function udf_lower(string) returns string location '/xzw/impala_udf.jar' symbol='com.xzw.hive.Lower';

5、使用自定义函数

select ename, udf_lower(ename) from emp;

六、压缩和存储

文件格式	压缩编码	Impala是否可直接创建	是否可直接插入
Parquet	Snappy（默认）, GZIP;	Yes	支持：CREATE TABLE, INSERT, 查询
TextFile	LZO，gzip，bzip2，snappy	Yes. 不指定 STORED AS 子句的 CREATE TABLE 语句，默认的文件格式就是未压缩文本	支持：CREATE TABLE, INSERT, 查询。如果使用 LZO 压缩，则必须在 Hive 中创建表和加载数据
RCFile	Snappy, GZIP, deflate, BZIP2	Yes.	支持CREATE，查询，在 Hive 中加载数据
SequenceFile	Snappy, GZIP, deflate, BZIP2	Yes.	支持：CREATE TABLE, INSERT, 查询。需设置

这里需要注意的是，Impala不支持ORC格式。

七、Impala的优化

1、尽量将StateStore和Catalog单独部署到同一个节点，保证他们正常通信。

2、通过对Impala Daemon内存限制（默认256M）及StateStore工作线程数，来提高Impala的执行效率。

3、SQL优化，使用之前调用执行计划。

4、选择合适的文件格式进行存储，提高查询效率。

5、避免产生很多小文件（如果有其他程序产生的小文件，可以使用中间表，将小文件数据存放到中间表。然后通过insert…select…方式中间表的数据插入到最终表中）。

6、使用合适的分区技术，根据分区粒度测算。

7、使用compute stats进行表信息搜集，当一个内容表或分区明显变化，重新计算统计相关数据表或分区。因为行和不同值的数量差异可能导致Impala选择不同的连接顺序时进行查询。

8、网络io的优化：避免把整个数据发送到客户端；尽可能的做条件过滤；使用limit字句；输出文件时，避免使用美化输出；尽量少用全量元数据的刷新。

9、使用profile输出底层信息计划，在做相应环境优化。

以上就是本文的所有内容，比较简单。你们在此过程中遇到了什么问题，欢迎留言，让我看看你们都遇到了哪些问题~

以上是关于七十三Impala的常用操作的主要内容，如果未能解决你的问题，请参考以下文章