如何使用Hive摆脱URL中的查询?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用Hive摆脱URL中的查询?相关的知识,希望对你有一定的参考价值。

我有几百万个网址,看起来像:

www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld

我想摆脱网址查询,以便它们看起来像:

www.wikipedia.com/helloworld

我怎样才能做到这一点?使用正则表达式是否安全?我应该使用parse_url代替(Hive)吗?

谢谢!

答案

你可以使用parse_url函数与http://https://串联到现有列,并获得HOSTPATH值连接它们以获得所需的结果。

select CONCAT(parse_url(concat('http://',col),'HOST'),
              parse_url(concat('http://',col),'PATH')
             )
from tbl

以上是关于如何使用Hive摆脱URL中的查询?的主要内容,如果未能解决你的问题,请参考以下文章

如何摆脱 URL 中的“%20”代码(django)

如何摆脱Android应用栏中的后退按钮

URL 片段中的多个参数

如何使用 Databricks 查询外部 Hive 表

如何摆脱 ASP.Net MVC 中的 Home?

如何使 Hive 查询利用存储在 Metastore 中的统计信息