大数据Hive JSON数据处理

Posted 赵广陆

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据Hive JSON数据处理相关的知识,希望对你有一定的参考价值。


1 应用场景

JSON数据格式是数据存储及数据处理中最常见的结构化数据格式之一,很多场景下公司都会将数据以JSON格式存储在HDFS中,当构建数据仓库时,需要对JSON格式的数据进行处理和分析,那么就需要在Hive中对JSON格式的数据进行解析读取。
例如,当前我们JSON格式的数据如下:

每条数据都以JSON形式存在,每条数据中都包含4个字段,分别为设备名称【device】、设备类型【deviceType】、信号强度【signal】和信号发送时间【time】,现在我们需要将这四个字段解析出来,在Hive表中以每一列的形式存储,最终得到以下Hive表:

2 处理方式

Hive中为了实现JSON格式的数据解析,提供了两种解析JSON数据的方式,在实际工作场景下,可以根据不同数据,不同的需求来选择合适的方式对JSON格式数据进行处理。

➢ 方式一:使用JSON函数进行处理
Hive中提供了两个专门用于解析JSON字符串的函数:get_json_object、json_tuple,这两个函数都可以实现将JSON数据中的每个字段独立解析出来,构建成表。

➢ 方式二:使用Hive内置的JSON Serde加载数据
Hive中除了提供JSON的解析函数以外,还提供了一种专门用于加载JSON文件的Serde来实现对JSON文件中数据的解析,在创建表时指定Serde,加载文件到表中,会自动解析为对应的表格式。

3 JSON函数:get_json_object

3.1 功能

用于解析JSON字符串,可以从JSON字符串中返回指定的某个对象列的值

3.2 语法

➢ 语法
get_json_object(json_txt, path) - Extract a json object from path
➢ 参数
➢ 第一个参数:指定要解析的JSON字符串
➢ 第二个参数:指定要返回的字段,通过$.columnName的方式来指定path
➢ 特点:每次只能返回JSON对象中一列的值

3.3 使用

➢ 创建表

--切换数据库
use db_function;

--创建表
create table tb_json_test1 (
  json string
);

➢ 加载数据
–加载数据
load data local inpath ‘/export/data/device.json’ into table tb_json_test1;

➢ 查询数据
select * from tb_json_test1;

➢ 获取设备名称字段

select
       json,
       get_json_object(json,"$.device") as device
from tb_json_test1;


➢ 获取设备名称及信号强度字段

select
       --获取设备名称
       get_json_object(json,"$.device") as device,
       --获取设备信号强度
       get_json_object(json,"$.signal") as signal
from tb_json_test1;


➢ 实现需求

select
       --获取设备名称
       get_json_object(json,"$.device") as device,
       --获取设备类型
         get_json_object(json,"$.deviceType") as deviceType,
       --获取设备信号强度
       get_json_object(json,"$.signal") as signal,
       --获取时间
       get_json_object(json,"$.time") as stime
from tb_json_test1;

4 JSON函数:json_tuple

4.1 功能

用于实现JSON字符串的解析,可以通过指定多个参数来解析JSON返回多列的值

4.2 语法

➢ 语法

json_tuple(jsonStr, p1, p2, ..., pn) 
like get_json_object, but it takes multiple names and return a tuple

➢ 参数
➢ 第一个参数:指定要解析的JSON字符串
➢ 第二个参数:指定要返回的第1个字段
➢……
➢ 第N+1个参数:指定要返回的第N个字段
➢ 特点
➢ 功能类似于get_json_object,但是可以调用一次返回多列的值。属于UDTF类型函数
➢ 返回的每一列都是字符串类型
➢ 一般搭配lateral view使用

4.3 使用

➢ 获取设备名称及信号强度字段

select
       --返回设备名称及信号强度
       json_tuple(json,"device","signal") as (device,signal)
from tb_json_test1;


➢ 实现需求,单独使用
select
–解析所有字段
json_tuple(json,“device”,“deviceType”,“signal”,“time”) as (device,deviceType,signal,stime)
from tb_json_test1;

➢ 实现需求,搭配侧视图
select
json,device,deviceType,signal,stime
from tb_json_test1
lateral view json_tuple(json,“device”,“deviceType”,“signal”,“time”) b
as device,deviceType,signal,stime;

5 JSONSerde

5.1 功能

上述解析JSON的过程中是将数据作为一个JSON字符串加载到表中,再通过JSON解析函数对JSON字符串进行解析,灵活性比较高,但是对于如果整个文件就是一个JSON文件,在使用起来就相对比较麻烦。Hive中为了简化对于JSON文件的处理,内置了一种专门用于解析JSON文件的Serde解析器,在创建表时,只要指定使用JSONSerde解析表的文件,就会自动将JSON文件中的每一列进行解析。

5.2 使用

➢ 创建表

--切换数据库
use db_function;

--创建表
create table tb_json_test2 (
   device string,
   deviceType string,
   signal double,
   `time` string
 )
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;

➢ 加载数据
load data local inpath ‘/export/data/device.json’ into table tb_json_test2;

➢ 查询数据
select * from tb_json_test2;

6 总结

不论是Hive中的JSON函数还是自带的JSONSerde,都可以实现对于JSON数据的解析,工作中一般根据数据格式以及对应的需求来实现解析。如果数据中每一行只有个别字段是JSON格式字符串,就可以使用JSON函数来实现处理,但是如果数据加载的文件整体就是JSON文件,每一行数据就是一个JSON数据,那么建议直接使用JSONSerde来实现处理最为方便。

以上是关于大数据Hive JSON数据处理的主要内容,如果未能解决你的问题,请参考以下文章

大数据NiFi(十九):实时Json日志数据导入到Hive

大数据之Hive:get_json_object函数使用

Hive系列之解析JSON数据

Hive解析Json数据

亲测!超好用 Hive 内置的 json 解析函数

Hive解析Json数组超全讲解