Java正则表达式转换[重复]

Posted

技术标签:

【中文标题】Java正则表达式转换[重复]【英文标题】:Java regex conversion [duplicate] 【发布时间】:2012-07-09 04:20:16 【问题描述】:

可能重复:Java: How to decode html character entities in Java like HttpUtility.HtmlDecode?

我有一些特殊字符以这种格式编码的字符串数据&#039

在这种情况下,编码是一个 ' 符号,一个单引号。

所以例如"the citizen&#039s home" 应该看起来像"the citizen's home" 但它不是。

不幸的是,这并没有被这样解释,我需要为这些东西解析我的所有字符串并转换它们

首先:那个格式叫什么,这将帮助我找到一种转换方法

第二:你知道修复我的字符串的方法吗?

【问题讨论】:

这种格式称为:HTML Entity(十进制)。 【参考方案1】:

无需重新发明***:Apache Commons Lang 的StringEscapeUtils.unescapeHtml4(String) 就是您想要的。

取消转义包含实体的字符串转义为包含 与转义对应的实际 Unicode 字符。支持 HTML 4.0 实体。

例如,字符串"<Français>" 将变为 "<Français>"

如果某个实体无法识别,则将其单独放置,并逐字插入 到结果字符串中。例如">&zzzz;x" 将变为 ">&zzzz;x"

【讨论】:

以上是关于Java正则表达式转换[重复]的主要内容,如果未能解决你的问题,请参考以下文章