Java正则表达式转换[重复]
Posted
技术标签:
【中文标题】Java正则表达式转换[重复]【英文标题】:Java regex conversion [duplicate] 【发布时间】:2012-07-09 04:20:16 【问题描述】:可能重复:Java: How to decode html character entities in Java like HttpUtility.HtmlDecode?
我有一些特殊字符以这种格式编码的字符串数据&#039
在这种情况下,编码是一个 ' 符号,一个单引号。
所以例如"the citizen&#039s home"
应该看起来像"the citizen's home"
但它不是。
不幸的是,这并没有被这样解释,我需要为这些东西解析我的所有字符串并转换它们
首先:那个格式叫什么,这将帮助我找到一种转换方法
第二:你知道修复我的字符串的方法吗?
【问题讨论】:
这种格式称为:HTML Entity(十进制)。 【参考方案1】:无需重新发明***:Apache Commons Lang 的StringEscapeUtils.unescapeHtml4(String) 就是您想要的。
取消转义包含实体的字符串转义为包含 与转义对应的实际 Unicode 字符。支持 HTML 4.0 实体。
例如,字符串
"<Français>"
将变为"<Français>"
如果某个实体无法识别,则将其单独放置,并逐字插入 到结果字符串中。例如
"&gt;&zzzz;x"
将变为">&zzzz;x"
。
【讨论】:
以上是关于Java正则表达式转换[重复]的主要内容,如果未能解决你的问题,请参考以下文章
正则表达式 - 将 HTML 转换为有效的 XML 标记 [重复]