特定的 Java HTML 解析器 [重复]
Posted
技术标签:
【中文标题】特定的 Java HTML 解析器 [重复]【英文标题】:Specific Java HTML parser [duplicate] 【发布时间】:2011-12-16 16:36:59 【问题描述】:可能重复:What are the pros and cons of the leading Java html parsers?
你会推荐什么 HTML 解析器来解析 HTML? 我需要一个功能 html 解析器: 该解析器返回有用的文本,没有菜单,没有页脚,没有标题信息。仅包含正常内容的文本。
我尝试过 Jericho Html 解析器、HtmlCleaner,但它们似乎无法按我的需要工作。
提前致谢。
【问题讨论】:
【参考方案1】:我不太确定你在问什么; HTML 解析器解析 HTML——从中提取的内容取决于您。我喜欢jsoup 和tagsoup。
如果您想要从 HTML 中提取“正常”内容的东西,您可以查看Apache Tika 如何处理 HTML。所有 HTML 的编写方式都不同——您必须能够定义什么是“正常”内容,以及它在哪里。
【讨论】:
我找到了令人难以置信的解析器,正是我想要的。你可以自己检查它的开源:boilerpipe-web.appspot.com @Paulius 看起来很酷;类似于 Tika 所做的。感谢您的参考。以上是关于特定的 Java HTML 解析器 [重复]的主要内容,如果未能解决你的问题,请参考以下文章