Hive从入门到精通8：Hive自定义函数（UDF）

Posted 2023-04-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hive从入门到精通8：Hive自定义函数（UDF）相关的知识，希望对你有一定的参考价值。

参考技术A Hive中的用户自定义函数（即User Defined Function，简称UDF），是用户对一些列Hive操作进行封装以实现特定的功能的函数。比如：在Hive的UDF中，可以直接使用select语句，对查询结果按照一定的格式输出。

实现一个Hive UDF需要满足以下两点要求：

（1）定义一个UDF类ConcatString ：按指定格式拼接字符串

（2）定义一个UDF类SalaryGrade ：判断员工表中的工资级别

（1）把编写好的程序打包放到目标机器上

（2）进入Hive客户端，添加myudf.jar包到当前环境

（3）创建临时函数

测试数据：

（1）查询HQL语句

连接两个字段：默认连接符用“====”

连接两个字段：自定义连接符

（2）销毁临时函数

hive自定义函数（UDF）

首先什么是UDF，UDF的全称为user-defined function，用户定义函数，为什么有它的存在呢？有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示，通过写UDF，Hive就可以方便地插入用户写的处理代码并在查询中使用它们，相当于在HQL（Hive SQL）中自定义一些函数,首先UDF必须用java语言编写，Hive本身就是用java写的.
编写UDF需要下面两个步骤:
1.继承org.apache.hadoop.hive.ql.UDF
2.实现evaluate函数，这个函数必须要有返回值，不能设置为void。同时建议使用mapreduce编程模型中的数据类型(Text,IntWritable等)，因为hive语句会被转换为mapreduce任务。

看代码吧:

    package hive;
     
    import org.apache.hadoop.hive.ql.exec.UDF;
    import org.apache.hadoop.hive.ql.metadata.HiveException;
    import org.apache.hadoop.io.Text;
     
    /**
    * hive自定义函数,取多个字段的最小值;
    */
    public class hiveUDF extends UDF {
    public Text evaluate(Text string){
    Text t ;
    String s = "helloworld"+string;
    t = new Text(s);
    return t;
    }
    }

使用步骤:

1.首先将写好的UDF函数编译后的Java类打包成为一个JAR文件，并在Hive中注册这个文件

add jar /opt/hadoop/xxx.jar;

2.创建方法(退出hive shell后将失效)

create temporary function jasontest as ‘hive.hiveUDF‘;

然后就可以用这个自定义函数了,下面是查看的结果.

技术分享图片
查看所有的函数:show functions like ‘*f*‘;