Java XML 解析:避免实体引用解析

Posted

技术标签:

【中文标题】Java XML 解析:避免实体引用解析【英文标题】:Java XML Parsing: Avoid entity reference resolution 【发布时间】:2011-11-06 15:19:39 【问题描述】:

我目前正在使用 DOM 解析器解析 Xhtml 文档,例如:

final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setValidating(false);

final DocumentBuilder db = dbf.newDocumentBuilder();
db.setEntityResolver(MY_ENTITY_RESOLVER);
db.setErrorHandler(MY_ERROR_HANDLER);
...
final Document doc = db.parse(inputSource);

我的问题是,当我的文档包含实体引用时,例如:

<p>&euro;</p>

我的解析器为包含“€”而不是“€”的内容创建一个文本节点。也就是说,它以应有的方式解析实体(XHTML 1.0 Strict DTD 链接到 ENTITIES Latin1 DTD,进而建立了 "€" 与 "€" 的等价性)。

问题是,我不希望解析器做这样的事情。 我想保留“€”文本未修改

我已经尝试过:

final DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setExpandEntityReferences(false);

但是:

    我不喜欢这个,因为我担心这可能会使某些解析器实现无法导航从 XHTML 1.0 Strict DTD 到 ENTITIES Latin1 DTD,因此不考虑“€”作为一个声明的实体。

    当我这样做时,它奇怪地创建了两个节点:一个“磅”实体节点和一个后面带有“€”符号的文本节点。

有什么想法吗? 是否可以在 DOM 解析器中进行配置,而无需使用 预处理 XHTML 并将所有“&”符号替换为其他符号?...

解决方案可以是 DOM 解析器,也可以是 SAX 解析器,我不介意使用 SAX 解析然后使用转换创建我的 DOM...

另外,我无法切换到非标准 XML 解析库。没有 jdom,没有 jsoup,没有 HtmlCleaner 等。

非常感谢。

【问题讨论】:

我的解析器创建了一个文本节点..你是如何测试的? 【参考方案1】:

我采用的方法是用 Xerces 将其视为纯文本的唯一标记替换任何实体。转换为 Document 对象后,标记将替换为 Entity Reference 对象。

见http://sourceforge.net/p/commonclasses/code/14/tree/trunk/src/com/redhat/ecs/commonutils/XMLUtilities.java中的convertStringToDocument()函数

【讨论】:

是的,经过大量搜索和测试,我终于做了类似的事情:我创建了一个读取器(java.io.BufferedReader 的扩展),它可以即时替换“&”将 XML 实体中的符号替换为另一个符号,然后对解析后的文档进行后处理,将这些符号替换为 & 号。它看起来不干净,因为它不是;-),但它有效。

以上是关于Java XML 解析:避免实体引用解析的主要内容,如果未能解决你的问题,请参考以下文章

在 XML 中创建文本节点时避免转义字符实体引用

解析 EntityName 时出错

避免在 Java 中使用 XPath 重复实例化 InputSource

XML 解析 & 特殊字符报错

解析 XML 时出错:对实体“版本”的引用必须以“;”结尾分隔符[重复]

java操作XML文件