如何使用 talend 在 hive 上的分隔符 nth 之间进行 regexp_extract
Posted
技术标签:
【中文标题】如何使用 talend 在 hive 上的分隔符 nth 之间进行 regexp_extract【英文标题】:how to regexp_extract between delimiter nth on hive with talend 【发布时间】:2021-03-11 11:34:49 【问题描述】:所以我一直在努力用 ^ 分隔符分隔随机文本
注意:我不使用split
,因为它的限制是由于我的天赋。所以仅限regexp_extract
。
文字如下:
1^^^prophalena^BB^^^^^^^^^VVRT^4^206_MEE65^098740^0206_09^0ID00980990^1
^^^alchemist^^^^^^^^^^^8^314_YOUR^094589740^099_PPPP^0PP746739200^1
我已经尝试使用这些正则表达式在各种情况下提取prophalena
:
-
结果
mapredtask2
select regexp_extract(value,'^(?:[^\\^]*\^)3([^\\^]*',1)
-
结果为 0 值
select regexp_extract(value, '^(?:([^^]+)\^?)4',1)
这里出了什么问题?我该怎么办?
【问题讨论】:
第一个模式缺少最后的)
。试试regexp_extract(value, '^(?:[^^]*\^)3([^^]*)', 1)
(见demo)。请注意,您提供的任何一个字符串中都没有 mapredtask2
。
嘿,谢谢!如果我想提取VVRT怎么办?还是其他?我已经尝试将括号 3 中的数字更改为 14,但它不起作用。
因为是第14个字段,所以使用13
,^(?:[^^]*\^)13([^^]*)
。
不幸的是,当我将括号设置为大于 1 时,正则表达式不起作用。结果类似于 1
【参考方案1】:
第一个模式缺少最后的)
,并且您在字符类中添加了不必要的反斜杠。
你可以使用
regexp_extract(value, '^(?:[^^]*\^)3([^^]*)', 1)
请参阅regex demo。
详情:
^
- 字符串开头
(?:[^^]*\^)3
- 除^
之外的任何字符出现三次,然后是^
字符
([^^]*)
- 第四个字段,除^
之外的零个或多个字符。
所以,大括号内的数字就是 N-1 值(如果需要第 14 个字段,请使用13
)。
【讨论】:
以上是关于如何使用 talend 在 hive 上的分隔符 nth 之间进行 regexp_extract的主要内容,如果未能解决你的问题,请参考以下文章