是否有 Perl 快捷方式来计算字符串中的匹配数?

Posted

技术标签:

【中文标题】是否有 Perl 快捷方式来计算字符串中的匹配数?【英文标题】:Is there a Perl shortcut to count the number of matches in a string? 【发布时间】:2010-12-23 09:19:46 【问题描述】:

假设我有:

my $string = "one.two.three.four";

我应该如何使用上下文来获取模式找到匹配项的次数 (3)?这可以使用单线完成吗?

我试过了:

my ($number) = scalar($string=~/\./gi);

我认为通过在$number 周围加上括号,我会强制数组上下文,通过使用scalar,我会得到计数。但是,我得到的只是1

【问题讨论】:

【参考方案1】:

这将正则表达式本身置于标量上下文中,这不是您想要的。相反,将正则表达式放入列表上下文中(以获取匹配数)并将 that 放入标量上下文中。

 my $number = () = $string =~ /\./gi;

【讨论】:

好吧,perlsecret 确实建议将“Saturn”作为替代名称。 :) 谁能给我解释一下这段代码?我是 perl 新手,但我仍然对上下文不太熟悉。 第一部分,() = $string =~ /\./gi,使匹配运算符在列表上下文中返回匹配结果。这类似于my @results = $string =~ /\./gi;。接下来,my $number 部分是一个标量值。将列表上下文的结果分配给标量会返回其长度。这与my $count = @some_list 相同,返回数组的长度。我在下面的回答是另一种可视化行为的方式。【参考方案2】:

我认为描述这一点最清晰的方法是避免立即转换为标量。首先分配给一个数组,然后在标量上下文中使用该数组。这基本上就是 = () = 成语会做的事情,但没有(很少使用的)成语:

my $string = "one.two.three.four";
my @count = $string =~ /\./g;
print scalar @count;

【讨论】:

+1 最直接的方式,goatse 算子很吓人。 @count 周围的括号是不必要的。【参考方案3】:

另外,请参阅Perlfaq4:

有多种方法,效率各不相同。如果您想计算字符串中某个单个字符 (X) 的计数,可以使用 tr/// 函数,如下所示:

$string = "ThisXlineXhasXsomeXx'sXinXit";
$count = ($string =~ tr/X//);
print "There are $count X characters in the string";

如果您只是在寻找单个字符,这很好。但是,如果您尝试计算较大字符串中的多个字符子字符串,则 tr/// 将不起作用。您可以做的是围绕全局模式匹配包装一个 while() 循环。例如,让我们计算负整数:

$string = "-9 55 48 -2 23 -76 4 14 -44";
while ($string =~ /-\d+/g)  $count++ 
print "There are $count negative numbers in the string";

另一个版本在列表上下文中使用全局匹配,然后将结果分配给一个标量,产生匹配数的计数。

$count = () = $string =~ /-\d+/g;

【讨论】:

【参考方案4】:

下面的代码是单行代码吗?

print $string =~ s/\./\./g;

【讨论】:

【参考方案5】:

试试这个:

my $string = "one.two.three.four";
my ($number) = scalar( @[ $string=~/\./gi ] );

它为我返回3。通过创建对数组的引用,正则表达式在列表上下文中进行评估,@.. 取消引用数组引用。

【讨论】:

你不需要这些括号。 我必须说我比山羊更喜欢这种方法。事实上,我比山羊更喜欢几乎所有东西。【参考方案6】:

我注意到,如果您的正则表达式中有 OR 条件(例如 /(K..K)|(V.AK)/gi ),则生成的数组可能包含未定义的元素,这些元素包含在最后的计数中。

例如:

my $seq = "TSYCSKSNKRCRRKYGDDDDWWRSQYTTYCSCYTGKSGKTKGGDSCDAYYEAYGKSGKTKGGRNNR";
my $regex = '(K..K)|(V.AK)';
my $count = () = $seq =~ /$regex/gi;
print "$count\n";

给出的计数值为 6。

我在这篇文章中找到了解决方案 How do I remove all undefs from array?

my $seq = "TSYCSKSNKRCRRKYGDDDDWWRSQYTTYCSCYTGKSGKTKGGDSCDAYYEAYGKSGKTKGGRNNR";
my $regex = '(K..K)|(V.AK)';
my @count = $seq =~ /$regex/gi;
@count = grep defined, @count; 
my $count = scalar @count;
print "$count\n";

然后给出三个正确答案。

【讨论】:

【参考方案7】:

另一种方式,

my $string = "one.two.three.four";
@s = split /\./,$string;
print scalar @s - 1;

【讨论】:

【参考方案8】:
my $count = 0;
my $pos = -1;
while (($pos = index($string, $match, $pos+1)) > -1) 
  $count++;

用 Benchmark 查了一下,速度挺快的

【讨论】:

这不是模式匹配。【参考方案9】:

Friedo 的方法是:$a = () = $b =~ $c

但可以将其进一步简化为 ($a) = $b =~ $c,如下所示:

my ($matchcount) = $text =~ s/$findregex/ /gi;

感谢您将它封装在一个函数中,getMatchCount(),而不必担心它会破坏传递的字符串。

另一方面,您可以添加一个交换,这可能需要更多的计算,但不会导致更改字符串。

my ($matchcount) = $text =~ s/($findregex)/$1/gi;

【讨论】:

除非这是替换,而不是匹配:它将破坏原始字符串。这与@Mike 6 年前的想法相同。 @fishinear:这与 Mike 非常不同。他能够打印它,但不能将它存储到变量中。差异很大。 如果您需要非破坏性的,只要 s/(regex)/$1/g 或 /(=regex)//g 如果您喜欢危险地生活。 @android.weasel 哦,嘿,好点子!用那句话更新。我通常将这样的东西包装在函数中,所以我自己不必担心传递的参数的可破坏性(不确定哪个更快,因为现在它正在进行交换)。但这是有用的信息,添加!

以上是关于是否有 Perl 快捷方式来计算字符串中的匹配数?的主要内容,如果未能解决你的问题,请参考以下文章

PowerShell 中是不是有字符串连接快捷方式?

如何使用 Perl 计算文件中的字符、单词和行数?

Perl:转义字符串中的特殊字符以匹配正则表达式

perl 中的高效子串匹配

如何在 Perl 中仅匹配 Unicode 字符串中的完全组合字符?

是否有 perl 5.005 核心模块可以将纪元秒数转换为日期时间字符串?