如何使用Hive摆脱URL中的查询?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用Hive摆脱URL中的查询?相关的知识,希望对你有一定的参考价值。
我有几百万个网址,看起来像:
www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld
我想摆脱网址查询,以便它们看起来像:
www.wikipedia.com/helloworld
我怎样才能做到这一点?使用正则表达式是否安全?我应该使用parse_url
代替(Hive)吗?
谢谢!
答案
你可以使用parse_url
函数与http://
或https://
串联到现有列,并获得HOST
和PATH
值连接它们以获得所需的结果。
select CONCAT(parse_url(concat('http://',col),'HOST'),
parse_url(concat('http://',col),'PATH')
)
from tbl
以上是关于如何使用Hive摆脱URL中的查询?的主要内容,如果未能解决你的问题,请参考以下文章