特定的 Java HTML 解析器 [重复]

Posted

技术标签:

【中文标题】特定的 Java HTML 解析器 [重复]【英文标题】:Specific Java HTML parser [duplicate] 【发布时间】:2011-12-16 16:36:59 【问题描述】:

可能重复:What are the pros and cons of the leading Java html parsers?

你会推荐什么 HTML 解析器来解析 HTML? 我需要一个功能 html 解析器: 该解析器返回有用的文本,没有菜单,没有页脚,没有标题信息。仅包含正常内容的文本。

我尝试过 Jericho Html 解析器、HtmlCleaner,但它们似乎无法按我的需要工作。

提前致谢。

【问题讨论】:

【参考方案1】:

我不太确定你在问什么; HTML 解析器解析 HTML——从中提取的内容取决于您。我喜欢jsoup 和tagsoup。

如果您想要从 HTML 中提取“正常”内容的东西,您可以查看Apache Tika 如何处理 HTML。所有 HTML 的编写方式都不同——您必须能够定义什么是“正常”内容,以及它在哪里。

【讨论】:

我找到了令人难以置信的解析器,正是我想要的。你可以自己检查它的开源:boilerpipe-web.appspot.com @Paulius 看起来很酷;类似于 Tika 所做的。感谢您的参考。

以上是关于特定的 Java HTML 解析器 [重复]的主要内容,如果未能解决你的问题,请参考以下文章

Java的最佳CLI解析器[重复]

.Net中的HTML解析器[重复]

使用 HTML 解析器获取特定 div 的内容 [关闭]

HashSet源码解析&Map迭代器

用于 Java 的 HTML/XML 解析器 [关闭]

如何为python安装解析器库[重复]