java 正则表达式取出标签内的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java 正则表达式取出标签内的内容相关的知识,希望对你有一定的参考价值。

需要一个正则表达式,它匹配一个string,这个string需要以<p>开头,</p>结束。
并且然后取出之间string中被//包裹的内容。需要用正则表达式表示后,用match出来需要的string。

比如有这个string:<pd>aaa/b/cc/dd/ff/e/</pd>就算是可以匹配,取出的项为
b, dd,e。(不能取到cc)
aaa/b/cc/dd/ff/e/这种就不算匹配上。
string基本机构一定是<pd>...../..../.../../.....</pd> 有可能有多个/../

比如刚刚例子中,取到b以后,cc就不能取了,因为cc前面的/已经被/b/用掉了。

你这个要分2次匹配
第一次取出pd间的数据,正则为:
<pd>([^<]+)</pd>
这个正则的结果$1就是pd间的数据了,再用下面的正则循环匹配,就可以依次得到b, dd,e
/([^/]+)/追问

有没有个方法,用1个正则表达式match出结果呢?这个程序分2个是可以的,我试验代码如下
String test1 = "aaa/b/cc/dd/ff/e/";
Pattern p1 = Pattern.compile("([^");
Pattern p2 = Pattern.compile("/([^/]*)/");
Matcher m1 = p1.matcher(test1);
if (m1.find())
String test2 = m1.group(1);
Matcher m2 = p2.matcher(test2);

追答

如果是固定的3个,就可以一个正则,如果不固定,有时2个,有时3个,有时5个,就没办法了

参考技术A 兄弟,我那天不是已经给你了,如果你要的是 b/dd/e,

pattern = /^(?:[\\/]?[^\\/]+\\/)([^\\/]+) (?:[\\/]?[^\\/]+\\/)([^\\/]+) (?:[\\/]?[^\\/]+\\/)([^\\/]+)/x

你没试么?

参考资料:http://zhidao.baidu.com/question/286260583.html

正则表达式查找字符串中大括号内的任何标签

【中文标题】正则表达式查找字符串中大括号内的任何标签【英文标题】:Regex to find any tag inside curly braces in a string 【发布时间】:2021-11-05 06:30:18 【问题描述】:

我正在努力找出我可以使用哪个正则表达式来清理这个字符串:

1WH/12A/23T/34 /45I/56T/67 /78I/89S/9

所以我只阅读文本?

非常感谢,

M

【问题讨论】:

那么你想从中提取的子字符串是什么? “它是什么” - 我想删除大括号之间的所有标签 【参考方案1】:

你可以使用字符串替换:

import re
line = "1WH/12A/23T/34 /45I/56T/67 /78I/89S/9"
line = re.sub(r"[^a-zA-Z\s]", "", line) 
print(line)# WHAT IT IS

地点:

[^a-zA-Z\s] -> 捕捉除字母和空格以外的所有字符

演示:https://regex101.com/r/YioUF5/1

【讨论】:

非常感谢 - 对基本问题感到抱歉 :) 如果我想明确过滤标签 ,即文本中是否有数字和特殊字符,该怎么办?

以上是关于java 正则表达式取出标签内的内容的主要内容,如果未能解决你的问题,请参考以下文章

html 正则表达式定位div标签内的所有内容

php正则表达式获取href标签内的字符串

使用sublime text3,用正则表达式统一去除coordinates标签内的内容,试了很多方式都无效。

正则表达式--小脚本(对输入内容进行处理)

怎么用正则表达式匹配中括号内的字符

用于查找 HTML 标签及其内容的正则表达式的否定 - java