Hive处理Json数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive处理Json数据相关的知识,希望对你有一定的参考价值。

参考技术A

Json 数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法

cat json.data

创建hive表并且加载数据

json_tuple 不支持json 的嵌套处理,但是支持一次性获取多个顶级的key对应的值

get_json_object 不支持一次获取多个值,但是支持复杂json 的处理

用法:get_json_object(string json_string, string path) 前面我们介绍过如何查看函数的用法 desc function get_json_object

返回值:String

说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NUll,这个函数每次只能返回一个数据项。

具体示例: get_json_object(value,’$.id’)

select get_json_object(text,"$.movie") from ods.ods_json_data;

这个函数的不足之处是,它只能返回一个值,就是我们不能一次性从json 中提取多个值,如果要提取多个值的话,就要多次调用这个函数,但是我们下面介绍的json_tuple 就可以,但是这不是说这个函数不强或者怎么样,记住这个函数的api 可以帮你节约很多时间

用法:json_tuple(jsonStr, p1, p2, ..., pn) 整理的pn 就是我们要提取的键

返回值:tuple(v1,...vn) 这里的返回值v1 ... vn 和 键p1 .... pn 是相对应的

select json_tuple(text,\'movie\',\'rate\',\'timeStamp\',\'uid\') from ods.ods_json_data;

json_tuple相当于get_json_object的优势就是 一次可以解析多个Json字段

前面我们说了json_tuple不支持嵌套JSON 的处理

这个时候时候你发现我提取的都是json 数组中的 website ,有没有什么简单的办法呢,理论上get_json_object 只能有一个返回值,无论如何都需要写多个,那你有没有想过一个问题,我要是这个数组里面有100个元素都是json,我需要每一个json 的website 那我是不是需要写100次了,这个时候你要是仔细阅读这个函数的api 的话,你就会发现了另外一个符号*

这下你知道了,get_json_object 是只能返回一个元素,不是只能返回一个字符串,上面本来就是一个json 数组,那要是我们是从json 里面解析出来的数组怎么处理呢?

需要注意下面这样操作之后你拿到的就是一个json 字符串了,这下你就可以按照上面的方式再处理一次了

但是有时候我们希望直接获取,而不是通过这样嵌套的方式,这个时候其实就是将上面的嵌套的get_json_object函数的path 参数进行组合

这个时候如果我们再上 * 进行加持,那就很简单了

其实到这里我们学习了指定一个数组的某个下标获取一个元素,指定* 获取全部元素,那就如我就想获取前三个或者偶数个或者奇数个呢,哈哈,如果你回过头去看api 你就是知道了提供了一个 Union operator ,指定任意你想组合的下标即可,获取

下面我们尝试获取一下偶数个,或者奇数个或者是一定范围内的奇数个或者偶数个,其实就是上面提供的数组切片,你可以参考api 进行使用

但是我尝试了一下,发现这个功能有bug,不能做到切片的效果,每次都是全部返回

对于上面json.data 的数据,我们能不能在load 数据到hive 的时候就处理,而不是load 完之后再到使用的时候去处理,尤其是针对这种嵌套结构不是很复杂的这种json 格式

这种方法需要注意的是你的数据类型和字段名称都要匹配,否则就会报错或者不能获取到值,那要是复杂一点的嵌套结构呢,其实也可以,在上面的数据基础上添加了一个嵌套的字段也是可以的

亲测!超好用 Hive 内置的 json 解析函数

背景

在大数据  ETL(Extract-Transfer-Load)  过程中,经常需要从不同的数据源来提取数据进行加工处理,比较常见的是从 Mysql 数据库来提取数据,而 Mysql 数据库中数据存储的比较常见方式是使用 json 串进行存储。

通过大数据加工处理出来的数据是需要具有可直观分析的特点,可从数据分析中挖掘出商业价值的。

因此在数据预处理层需要将 json 串进行“拍平”处理,所谓“拍平”是指将 json 中的 key 转换为表的列字段,其 key 对应的 value 值则为列字段对应的值。

“拍平”的处理行业内也可称为“行转列”处理,我举个例子你就能明白什么是行转列了。

举例:

user表字段如下:

iddetail_info
1'"name":"rocky","age":18,"prefer":"music"'

现需要将 user 表中字段 detail_info 中的 json 串值,以每个 key 作为 user_detail_info 表的字段来进行存储。

实现的 user_detail_info 表字段如下:

idnameageprefer
1rocky18music

从 user 表到 user_detail_info 表的转换,就是“行转列”的过程。

你是否会好奇,在 Hive 中这个过程是如何实现的呢?

下文会解答你的疑惑。

Hive内置的json解析函数:get_json_object

语法:

get_json_object(json_string, '$.column')

说明:

解析 json 的字符串 json_string, 返回 path 指定的内容。如果输入的 json 字符串无效,结果返回 NULL。

这个函数每次只能返回一个数据项。

举例:

test_data = '"name": "zhangsan",
              "age": 18, 
              "preference": "music"'

查询sql语句

select get_json_object(test_data,'$.preference');  

解析结果:

preference
music

如果需要同时解析 age, preference 这两个字段。

sql语句如下:

select get_json_object(test_data,'$.age'),get_json_object(test_data,'$.preference');

执行结果如下:

agepreference
18music

如果需要同时解析的字段很多,很显然使用这种方式写就比较麻烦了,这时候 json_tuple 这个函数是个更好的选择。

Hive内置的json解析函数:json_tuple

语法:

json_tuple(json_string, column1, column2, column3 ...)

说明:

解析 json 的字符串 json_string,可同时指定多个 json 数据中的 column,返回对应的 value。如果输入的 json 字符串无效,结果返回 NULL。

举例:

例如:test_table1 表的 data 字段存储的是以下 json 串信息,现在想要获取这个 json 串的每个 key 并将其对应的 value 值查询出来。

(1). 准备 test_table1 表 data 字段的 json 数据

data = '
   "name": "rocky",
   "age": 20,
   "prefer": "dance",
   "height": 1.8,
   "nation": "China"
'

(2). sql查询语句

 select t1.name,
        t1.age,
        t1.prefer,
        t1.height,
        t1.nation
 from (select data
             from test_table1
          ) t0
          lateral view json_tuple(t0.data,
                  'name',
                  'age',
                  'prefer',
                  'height',
                  'nation'
              ) t1 as name,age,prefer,height,nation;

解析结果:

nameagepreferheightnation
rocky20dance1.8China

get_json_object函数 & json_tuple函数

  • get_json_object 函数的使用语法中,使用到$.加上 json 的 key;

  • json_tuple 函数的使用语法中,不能使用$.加上 json 的 key,如果使用则会导致解析失败;

  • json_tuple 函数与 get_json_object 函数对比,可以发现 json_tuple 函数的优点是一次可以解析多个 json 字段;

  • 但是如果被要求解析的 json 是一个 json 数组,那么这两个函数都无法完成解析;

关于 Hive 如何解析 json 数组,将会在后面的文章中分享,敬请期待~

欢迎关注【无量测试之道】公众号,回复【领取资源】

Python+Unittest框架API自动化、

Python+Unittest框架API自动化、

Python+Pytest框架API自动化、

Python+Pandas+Pyecharts大数据分析、

Python+Selenium框架Web的UI自动化、

Python+Appium框架APP的UI自动化、

Python编程学习资源干货、

Vue前端组件化框架开发、

资源和代码 免费送啦~
文章下方有公众号二维码,可直接微信扫一扫关注即可。

备注:我的个人公众号已正式开通,致力于IT互联网技术的分享。

包含:数据分析、大数据、机器学习、测试开发、API接口自动化、测试运维、UI自动化、性能测试、代码检测、编程技术等。

微信搜索公众号:“无量测试之道”,或扫描下方二维码:

  

添加关注,让我们一起共同成长!

以上是关于Hive处理Json数据的主要内容,如果未能解决你的问题,请参考以下文章

大数据Hive JSON数据处理

HIVE json格式数据的处理

Hive处理Json数据详解

HIVE处理JSON数据:GET_JSON_OBJECTJSON_TUPLEJSONFILE

HIVE处理JSON数据:GET_JSON_OBJECTJSON_TUPLEJSONFILE

Hive系列之解析JSON数据