python实现hive-udf

Posted 2022-11-24 xiaopihaierletian

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python实现hive-udf相关的知识，希望对你有一定的参考价值。

简介

Hive为我们提供了众多的内置函数，但是在实际的运用过程中仍然不能满足我们所有的需求.hive是用java开发的，本身提供了使用java去开发UDF的方式.而这里我们采用python的方式去实现UDF函数.

DEMO实现

我们这里用python自定义函数，去实现一个方法，利用身份证号去判断性别(18位身份证的倒数第二位偶数为女，奇数为男.15位身份证的倒数第一位偶数为女,奇数为男.).其实这个需求可以使用hive自带的function去进行解决.我们接下来使用2种方式去实现这个需求.

数据准备

我们在hive上创建一个external表(名字person表),执行如下代码：

create external table person(

name string,

idcard string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\\t'

STORED as TEXTFILE;

该表两个字段，一个为name，另一个为idcard
数据格式如下:

neil 411326199402110030
pony 41132519950911004x
jcak 12312423454556561
tony 412345671234908

field分隔符使用\\t
我们将数据放入hive的warehouse中:

hdfs dfs -put person.txt /user/hive/warehouse/test_neil.db/person

执行select，我们发现数据已经进入到hive了.

使用Hive Function去实现

我们可以执行一下的hql去实现

select idcard,
case when length(idcard) = 18 then
             case when substring(idcard,-2,1) % 2 = 1 then '男' 
             when substring(idcard,-2,1) % 2 = 0 then '女' 
             else 'unknown' end 
     when length(idcard) = 15 then 
            case when substring(idcard,-1,1) % 2 = 1 then '男'
            when substring(idcard,-1,1) % 2 = 0 then '女'
            else 'unknown' end
     else '不合法' end 
from person;

得到的结果如下(beeline下)：

+---------------------+------+--+
|       idcard        | _c1  |
+---------------------+------+--+
| 12312423454556561   | 不合法  |
| 123124234545565     | 男    |
| 411325199308110030  | 男    |
| 41132519950911004x  | 女    |

UDF编写

如下是我们的udf代码：

# -*- coding: utf-8 -*-
import sys
 
for line in sys.stdin:
    detail = line.strip().split("\\t")
    if len(detail) != 2:
        continue
    else:
        name = detail[0]
        idcard = detail[1]
        if len(idcard) == 15:
            if int(idcard[-1]) % 2 == 0:
                print("\\t".join([name,idcard,"女"]))
            else:
                print("\\t".join([name,idcard,"男"]))
        elif len(idcard) == 18:
            if int(idcard[-2]) % 2 == 0:
                print("\\t".join([name,idcard,"女"]))
            else:
                print("\\t".join([name,idcard,"男"]))
        else:
            print("\\t".join([name,idcard,"身份信息不合法!"]))

这里我们使用python的重定向，将hive控制台的输出进行split，split默认使用的为\\t.然后根据split后的idcard的倒数第二位进行判断这个人的性别.

　测试

我们在hive中去执行查询时，报错的提示不是很详细.我们可以使用cat指令去测试python脚本的执行效果.
我们在终端中执行如下指令:

cat person.txt|python person.py

命令行中cat 将person.txt 通过管道命令符“|”输入给person.py脚本，运行后返回结果。如何友好的把Python和Bash结合在一起 - 知乎

输入结果如下：

neil 411325199308110030 男
pony 41132519950911004x 女
jack 12312423454556561 身份信息不合法!
tony 123124234545565 男

说明我们的解析是成功的.

使用

我们在hive中使用python定义的UDF函数要借助transform函数去执行.
transform函数的语法如下:

SELECT TRANSFORM (<columns>)

USING 'python <python_script>'

AS (<columns>)

FROM <table>;

transfrom和as的columns的个数不必一致.
我们首先需要将我们的person.py加载入

我们在hive中去执行如下代码:

add file /xxx/person.py

xxx为本地文件的路径.
然后使用transform函数执行:

select transform(name,idcard) USING 'python person.py'  AS (name,idcard,gender) from person;

java版本也需要打成jar包，使用add方式添加到hive中

add jar jar_path;

并且要创建函数：

create function fun_name as 'java class name' USING jar 'hdfs_jar_path';
// 上方为官方文档案例，下面的是我自己写的，属于临时函数，重启hive后失效
create function fun_name as 'java class name';

查询：

select fun_name(字段...) from table_name;

我们同样可以得到如下的结果：

neil 411325199308110030 男
pony 41132519950911004x 女
jack 12312423454556561 身份信息不合法!
tony 123124234545565 男

以上是关于python实现hive-udf的主要内容，如果未能解决你的问题，请参考以下文章

hive-UDF/UDTF/UDAF

用python编写脚本程序，实现用户输入3个整数，放入列表，并输出最小值

使用python实现京东抢购脚本

hive添加hdf等第三方jar

python:将一个数逆序列放入列表中，例如1234 => [4,3,2,1]

python:递归将一个数逆序列放入列表中