WUB 中的正则表达式提取字符

Posted

技术标签:

【中文标题】WUB 中的正则表达式提取字符【英文标题】:Regex Extract Characters inside WUB 【发布时间】:2020-07-31 11:46:08 【问题描述】:

我想要一个提取“WUB”中所有单词的正则表达式,但没有找到任何解决方案! 例如它会从 "WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB"

以下字符串(不带引号) ["WE", "ARE", "THE", "CHAMPIONS"]

这是我迄今为止尝试过的:

((?:.(?!WUB))+) 但它给了我以下输出(来自上面的例子):

['WUBW', 'WUBAR', 'WU', 'WUBTH', 'WUBCHAMPION', 'WUBM', 'WUBFRIEN', 'WUB']

请帮助我更了解这个问题

【问题讨论】:

您使用的构造是一个损坏的 tempered 贪婪令牌。您希望匹配除字符序列之外的任何文本,但它不用于此,正则表达式中没有这样的构造。 TGT 只匹配任何字符,0 或 1 次或多次出现,不开始某些序列。只需使用WUB 拆分并删除空项目。或者,使用 WUB(.*?)(?=WUB) 并获取第 1 组值。或(?<=WUB).*?(?=WUB),见demo 上述$_ ne '' && push @result, $_ for split('WUB', $data);的简单实现。 链接问题的答案都没有回答 OP 的问题,所以我重新打开了这个问题。 请修正标签以排除您不使用的语言。 (如果您有不止一种语言的类似问题,请将它们作为单独的问题发布。) 【参考方案1】:
$str =~ / WUB \K (?:(?!WUB).)+ (?=WUB) /sxg

$str =~ / (?<=WUB) (?:(?!WUB).)+ (?=WUB) /sxg    # Probably slower.

WUB 之后开始,实际上不包括匹配中的 WUB (\K),找到一个或多个不是WUB 开头的字符。确保其后跟WUB ((?=WUB))。


如果字符串总是以WUB 开头和结尾,或者如果您不介意获取第一个WUB 之前和最后一个WUB 之后的文本,那么以下内容会更清晰,而且肯定更快:

grep length, split /WUB/, $str

【讨论】:

【参考方案2】:

另一种方法,使用拆分:

my $str = "WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB";

# grep is here to remove empty elements
my @list = grep length, split /WUB/, $str;
say Dumper\@list;

输出:

$VAR1 = [
          'WE',
          'ARE',
          'THE',
          'CHAMPIONS',
          'MY',
          'FRIEND'
        ];

基准测试:

use Modern::Perl;
use Benchmark qw(:all);

my $str = "WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB";

my $count = -3;
cmpthese($count, 
    'match' => sub 
        my @list = $str =~  / WUB \K (?:(?!WUB).)+ (?=WUB) /sxg;
    ,
    'split' => sub 
        my @list = grep length, split /WUB/, $str;
    ,
);

输出:

          Rate match split
match  57806/s    --  -54%
split 126455/s  119%    --

【讨论】:

abcWUBdefWUBghi 失败,返回的文本不在WUB 之间。 (如果 OP 没有明确指定他们想要 WUB 之前的文本,我会建议 grep length, split /WUB/, $str 从数字的角度来看,匹配方法比拆分方法慢 1/55486 秒 - 1/99924 秒 = 8 微秒。 如果您使用拆分,您可以简单地删除结果的第一个和最后一个条目。 @GeorgMavridis:这就是我所做的,但如果字符串不是以WUB 开头,它就不起作用。【参考方案3】:

没有前瞻/后瞻断言的简单正则表达式是:

 /WUB((?:[^W]|W[^U]|WU[^B])+)/g

这假定测试的字符串以 WUB 结尾。如果没有,您要么必须在末尾包含一个零和前瞻断言 (?=WUB),

 /WUB((?:[^W]|W[^U]|WU[^B])+)(?=WUB)/g

或在使用正则表达式之前删除最后一个 WUB 后面的任何字符。

 s/WUB(?:[^W]|W[^U]|WU[^B])+$/WUB/

.

#! /usr/bin/env perl
use strict;
use warnings;
use Data::Dumper;
my $s = "WUBWEWUBAREWUBWUBTHEWUBCHAMPIONSWUBMYWUBFRIENDWUB";

print Dumper ([$s =~ /WUB((?:[^W]|W[^U]|WU[^B])+)/g]);

打印出来:

$VAR1 = [
          'WE',
          'ARE',
          'THE',
          'CHAMPIONS',
          'MY',
          'FRIEND'
        ];

【讨论】:

你是对的。我假设字符串是“格式正确的”,如示例中所示。如果不是,最简单的解决方案是在末尾添加一个带有前瞻断言 (?=WUB) 的零,或者在使用正则表达式之前删除最后一个 WUB 后面的任何字符。

以上是关于WUB 中的正则表达式提取字符的主要内容,如果未能解决你的问题,请参考以下文章

js利用正则表达式提取字符串中的特殊字符串

如何用excel中的VBA的正则表达式提取出字符串?

有关正则表达式的问题:将中文字符串中的日期提取出来

php 正则表达式 提取字符串内小括号中的数字,只要数字

正则表达式怎么提取json中的value?

正则表达式如何匹配提取括号中的内容