亲测!超好用 Hive 内置的 json 解析函数
Posted Wu_Candy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了亲测!超好用 Hive 内置的 json 解析函数相关的知识,希望对你有一定的参考价值。
背景
在大数据 ETL(Extract-Transfer-Load) 过程中,经常需要从不同的数据源来提取数据进行加工处理,比较常见的是从 mysql 数据库来提取数据,而 Mysql 数据库中数据存储的比较常见方式是使用 json 串进行存储。
通过大数据加工处理出来的数据是需要具有可直观分析的特点,可从数据分析中挖掘出商业价值的。
因此在数据预处理层需要将 json 串进行“拍平”处理,所谓“拍平”是指将 json 中的 key 转换为表的列字段,其 key 对应的 value 值则为列字段对应的值。
“拍平”的处理行业内也可称为“行转列”处理,我举个例子你就能明白什么是行转列了。
举例:
user表字段如下:
id | detail_info |
---|---|
1 | '"name":"rocky","age":18,"prefer":"music"' |
现需要将 user 表中字段 detail_info 中的 json 串值,以每个 key 作为 user_detail_info 表的字段来进行存储。
实现的 user_detail_info 表字段如下:
id | name | age | prefer |
---|---|---|---|
1 | rocky | 18 | music |
从 user 表到 user_detail_info 表的转换,就是“行转列”的过程。
你是否会好奇,在 Hive 中这个过程是如何实现的呢?
下文会解答你的疑惑。
Hive内置的json解析函数:get_json_object
语法:
get_json_object(json_string, '$.column')
说明:
解析 json 的字符串 json_string, 返回 path 指定的内容。如果输入的 json 字符串无效,结果返回 NULL。
这个函数每次只能返回一个数据项。
举例:
test_data = '"name": "zhangsan",
"age": 18,
"preference": "music"'
查询sql语句
select get_json_object(test_data,'$.preference');
解析结果:
preference |
---|
music |
如果需要同时解析 age, preference 这两个字段。
sql语句如下:
select get_json_object(test_data,'$.age'),get_json_object(test_data,'$.preference');
执行结果如下:
age | preference |
---|---|
18 | music |
如果需要同时解析的字段很多,很显然使用这种方式写就比较麻烦了,这时候 json_tuple 这个函数是个更好的选择。
Hive内置的json解析函数:json_tuple
语法:
json_tuple(json_string, column1, column2, column3 ...)
说明:
解析 json 的字符串 json_string,可同时指定多个 json 数据中的 column,返回对应的 value。如果输入的 json 字符串无效,结果返回 NULL。
举例:
例如:test_table1 表的 data 字段存储的是以下 json 串信息,现在想要获取这个 json 串的每个 key 并将其对应的 value 值查询出来。
(1). 准备 test_table1 表 data 字段的 json 数据
data = '
"name": "rocky",
"age": 20,
"prefer": "dance",
"height": 1.8,
"nation": "China"
'
(2). sql查询语句
select t1.name,
t1.age,
t1.prefer,
t1.height,
t1.nation
from (select data
from test_table1
) t0
lateral view json_tuple(t0.data,
'name',
'age',
'prefer',
'height',
'nation'
) t1 as name,age,prefer,height,nation;
解析结果:
name | age | prefer | height | nation |
---|---|---|---|---|
rocky | 20 | dance | 1.8 | China |
get_json_object函数 & json_tuple函数
-
get_json_object 函数的使用语法中,使用到$.加上 json 的 key;
-
json_tuple 函数的使用语法中,不能使用$.加上 json 的 key,如果使用则会导致解析失败;
-
json_tuple 函数与 get_json_object 函数对比,可以发现 json_tuple 函数的优点是一次可以解析多个 json 字段;
-
但是如果被要求解析的 json 是一个 json 数组,那么这两个函数都无法完成解析;
关于 Hive 如何解析 json 数组,将会在后面的文章中分享,敬请期待~
欢迎关注【无量测试之道】公众号,回复【领取资源】
Python+Unittest框架API自动化、
Python+Unittest框架API自动化、
Python+Pytest框架API自动化、
Python+Pandas+Pyecharts大数据分析、
Python+Selenium框架Web的UI自动化、
Python+Appium框架APP的UI自动化、
Python编程学习资源干货、
Vue前端组件化框架开发、
资源和代码 免费送啦~
文章下方有公众号二维码,可直接微信扫一扫关注即可。
备注:我的个人公众号已正式开通,致力于IT互联网技术的分享。
包含:数据分析、大数据、机器学习、测试开发、API接口自动化、测试运维、UI自动化、性能测试、代码检测、编程技术等。
微信搜索公众号:“无量测试之道”,或扫描下方二维码:
添加关注,让我们一起共同成长!
超好用的JSON解析工具—JSONPath
简介
JSONPath可以看做是xpath在json的应用。xml最大的优点就有大量的工具可以分析,转换,和选择性的提取文档中的数据。XPath是这些最强大的工具之一。
如果可以使用xpath来解析json,以下的问题可以被解决:
1.数据不使用特殊的脚本,可以在客户端交互的发现并取并获取。
2.客户机请求的JSON数据可以减少到服务器上的相关部分,这样可以最大限度地减少服务器响应的带宽使用率。
本文中介绍的是fastjson(阿里巴巴的开源JSON解析库)中的JSONPath,可以在java框架中当作对象查询语言(OQL)来使用。
使用方法
1.引入依赖jar包
2.使用方法
JSONPath 是参照,xpath表达式来解析xml文档的方式,json数据结构通常是匿名的并且不一定需要有根元素。如下图所示的json:
如果用xpath表示, xpath的表达式:/store/book[1]/title。而JSONPath用一个抽象的名字$来表示最外层对象,JOSNPath 表达式可以使用. 符号表示如下:
$.store.book[0].title或者使用[] 符号
$['store']['book'][0]['title']
Jsonpath的具体用法可以总结成下面的表格:
实例演示
下面的代码是对下面的一小段json的一个简单处理。
代码:
结果输出:
Qtest是360旗下的专业测试团队!
是WEB平台部测试技术平台化、效率化的先锋力量!
陪伴是最长情的告白
每日为你推送最in的测试技术
以上是关于亲测!超好用 Hive 内置的 json 解析函数的主要内容,如果未能解决你的问题,请参考以下文章