Java正则表达式转换[重复]

Posted

技术标签:

【中文标题】Java正则表达式转换[重复]【英文标题】:Java regex conversion [duplicate] 【发布时间】:2012-07-09 04:20:16 【问题描述】:

可能重复:Java: How to decode html character entities in Java like HttpUtility.HtmlDecode?

我有一些特殊字符以这种格式编码的字符串数据&#039

在这种情况下,编码是一个 ' 符号,一个单引号。

所以例如"the citizen&#039s home" 应该看起来像"the citizen's home" 但它不是。

不幸的是,这并没有被这样解释,我需要为这些东西解析我的所有字符串并转换它们

首先:那个格式叫什么,这将帮助我找到一种转换方法

第二:你知道修复我的字符串的方法吗?

【问题讨论】:

这种格式称为:HTML Entity(十进制)。 【参考方案1】:

无需重新发明***:Apache Commons Lang 的StringEscapeUtils.unescapeHtml4(String) 就是您想要的。

取消转义包含实体的字符串转义为包含 与转义对应的实际 Unicode 字符。支持 HTML 4.0 实体。

例如,字符串"<Français>" 将变为 "<Français>"

如果某个实体无法识别,则将其单独放置,并逐字插入 到结果字符串中。例如">&zzzz;x" 将变为 ">&zzzz;x"

【讨论】:

以上是关于Java正则表达式转换[重复]的主要内容,如果未能解决你的问题,请参考以下文章

Java正则表达式转义撇号[重复]

将字符串转换为正则表达式[重复]

正则表达式 - 将 HTML 转换为有效的 XML 标记 [重复]

Java正则表达式忽略/注释掉正则表达式的一部分[重复]

如何将 javascript 正则表达式转换为安全的 Java 正则表达式?

使用Java的正则表达式[重复]