Hive 查询以拆分列数据并存储到多个记录中

Posted

技术标签:

【中文标题】Hive 查询以拆分列数据并存储到多个记录中【英文标题】:Hive query to split column data and store into multiple records 【发布时间】:2018-02-15 15:29:39 【问题描述】:

有人可以建议我如何使用以下详细信息编写 Hive SQL 查询。

输入:(制表符分隔的数据)

Name Phone Address abc 123:456:789 hyderabad,bangalore,chennai xyz 111:222:333 delhi,mumbai,pune pqr 321:654:999 add1,add2,add3

输出:

Name Phone Address abc 123 hyderabad abc 456 bangalore abc 789 chennai xyz 111 delhi xyz 222 mumbai xyz 333 pune pqr 321 add1 pqr 654 add2 pqr 999 add3

谁能帮助我如何拆分列数据并将其放置为新记录不使用任何默认函数。 提前致谢。

【问题讨论】:

可能与此重复:***.com/questions/20667473/… 【参考方案1】:

使用posexplode,split。由于您需要拆分列的索引来匹配,因此您需要使用poseexplode创建索引并确保在将列转换为行时它们匹配。

select Name, Phone, Address 
from table 
      lateral view posexplode(split(Phone,':')) Phone AS index1, Phone
      lateral view posexplode(split(Address,',')) Address AS index2, Address
where index1=index2;

【讨论】:

【参考方案2】:

如果我们不知道用于此的预定义函数。我们可以编写如下自定义逻辑(仅当我们知道分隔符和#of splits)。

select name, substr(phone,instr(phone,':',1)-1) phone, substr(address,instr(address,',',1)-1)
union all 
select name, substr(phone,instr(phone,':',2)-1) phone, substr(address,instr(address,',',2)-1)
union all 
select name, substr(phone,instr(phone,':',2)+1,length(phone)) phone, substr(address,instr(address,',',2)+1,length(address))

如果我们不知道预定义的方法,这可能会有所帮助。

【讨论】:

以上是关于Hive 查询以拆分列数据并存储到多个记录中的主要内容,如果未能解决你的问题,请参考以下文章