Java 正则表达式捕获组
Posted
技术标签:
【中文标题】Java 正则表达式捕获组【英文标题】:Java Regex Capturing Groups 【发布时间】:2013-07-31 22:08:51 【问题描述】:我正在尝试理解这个代码块。在第一个中,我们在表达式中寻找什么?
我的理解是任何字符(0次或多次*)后跟0到9之间的任何数字(一次或多次+)后跟任何字符(0次或多次*)。
执行时结果为:
Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0
有人可以和我一起经历这个吗?
使用捕获组有什么好处?
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegexTut3
public static void main(String args[])
String line = "This order was placed for QT3000! OK?";
String pattern = "(.*)(\\d+)(.*)";
// Create a Pattern object
Pattern r = Pattern.compile(pattern);
// Now create matcher object.
Matcher m = r.matcher(line);
if (m.find())
System.out.println("Found value: " + m.group(0));
System.out.println("Found value: " + m.group(1));
System.out.println("Found value: " + m.group(2));
else
System.out.println("NO MATCH");
【问题讨论】:
要插入新行,请在行尾放置 2 个空格。有关降价语法的更多信息:en.wikipedia.org/wiki/Markdown - 另请参阅:***.com/editing-help 【参考方案1】:您遇到的问题是量词的类型。您在第一组中使用了 greedy 量词(索引 1 - 索引 0 代表整个 Pattern
),这意味着它将尽可能匹配(并且由于它是 any 字符,因此它将匹配 尽可能多的字符,以便满足下一组的条件)。
简而言之,您的第一组 .*
匹配任何内容,只要下一组 \\d+
可以匹配某些内容(在本例中为最后一个数字)。
根据第 3 组,它将匹配最后一位数字之后的任何内容。
如果您将其更改为第一组中的 不情愿 量词,您将得到我想您所期望的结果,即 3000 部分。
注意第一组中的问号。
String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find())
System.out.println("group 1: " + matcher.group(1));
System.out.println("group 2: " + matcher.group(2));
System.out.println("group 3: " + matcher.group(3));
输出:
group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?
有关 Java Pattern
here 的更多信息。
最后,捕获组由圆括号分隔,一旦您的Pattern
与输入匹配,它就提供了一种非常有用的方式来使用反向引用(除其他外)。
在 Java 6 中,组只能通过它们的顺序来引用(注意嵌套组和顺序的微妙之处)。
在 Java 7 中这要容易得多,因为您可以使用命名组。
【讨论】:
谢谢!原因组 2 存储 0 是因为整行都被贪婪的量词消耗,然后后退直到它与一个或多个数字接触。 0 满足了这个,所以表达式成功了。我发现第三组令人困惑,那个贪婪的量词是否也消耗了整行,但在找到应该在它之前的一个或多个数字 (\\d+) 之前退后? @Xivlai 让我在回答中微调我的解释,只需几秒钟。 这是一个很好的解释。因此,不情愿的人从左边开始,只取最小值,而贪婪的人则尽可能多地(从右边开始),只在最后一个数字之前停止以满足该条件。第三组负责其余部分。 您可以在 Java 5/6 中通过named-regexp
使用命名捕获组。
@Weekend 在这种情况下,它是等效的,因为循环只会在该字符串示例中运行一次。我想我当时使用了while
循环,因为它是可能在输入中重复的模式的常见用法,并且在这些情况下使用if
而不是while
是一个常见错误。 TL;DR if
在您确定模式不会重复/您只需要第一次出现/while
涵盖所有情况时可以安全使用。【参考方案2】:
这完全没问题。
-
第一组 (
m.group(0)
) 始终捕获正则表达式覆盖的整个区域。在这种情况下,它是整个字符串。
正则表达式默认是贪婪的,这意味着第一组在不违反正则表达式的情况下尽可能多地捕获。 (.*)(\\d+)
(正则表达式的第一部分)涵盖了第一组的 ...QT300
和第二组的 0
。
您可以通过使第一组不贪婪来快速解决此问题:将 (.*)
更改为 (.*?)
。
有关贪婪与懒惰的更多信息,请查看this site.
【讨论】:
【参考方案3】:你的理解是正确的。但是,如果我们走过:
(.*)
会吞下整个字符串;
它需要返回字符以便满足(\\d+)
(这就是为什么捕获0
,而不是3000
);
最后一个 (.*)
将捕获其余部分。
但是,我不确定作者的初衷是什么。
【讨论】:
【参考方案4】:来自文档:
Capturing groups</a> are indexed from left
* to right, starting at one. Group zero denotes the entire pattern, so
* the expression m.group(0) is equivalent to m.group().
所以捕获组 0 发送整行。
【讨论】:
以上是关于Java 正则表达式捕获组的主要内容,如果未能解决你的问题,请参考以下文章