特定的 Java HTML 解析器 [重复]

Posted 2023-03-05

技术标签:

【中文标题】特定的 Java HTML 解析器 [重复]【英文标题】：Specific Java HTML parser [duplicate] 【发布时间】：2011-12-16 16:36:59 【问题描述】：

可能重复：What are the pros and cons of the leading Java html parsers?

你会推荐什么 HTML 解析器来解析 HTML？我需要一个功能 html 解析器：该解析器返回有用的文本，没有菜单，没有页脚，没有标题信息。仅包含正常内容的文本。

我尝试过 Jericho Html 解析器、HtmlCleaner，但它们似乎无法按我的需要工作。

提前致谢。

【问题讨论】：

【参考方案1】：

我不太确定你在问什么； HTML 解析器解析 HTML——从中提取的内容取决于您。我喜欢jsoup 和tagsoup。

如果您想要从 HTML 中提取“正常”内容的东西，您可以查看Apache Tika 如何处理 HTML。所有 HTML 的编写方式都不同——您必须能够定义什么是“正常”内容，以及它在哪里。

【讨论】：

我找到了令人难以置信的解析器，正是我想要的。你可以自己检查它的开源：boilerpipe-web.appspot.com @Paulius 看起来很酷；类似于 Tika 所做的。感谢您的参考。

以上是关于特定的 Java HTML 解析器 [重复]的主要内容，如果未能解决你的问题，请参考以下文章