爪哇。比较网页结构 (dom) 的相似性。
Posted
技术标签:
【中文标题】爪哇。比较网页结构 (dom) 的相似性。【英文标题】:Java. Compare webpages structure (dom) similarity. 【发布时间】:2012-02-12 02:33:00 【问题描述】:是否有比较网页之间相似度(html、dom 相似度)的库(用于 java)?
在我的应用程序中,我想对网站的链接进行分类。
例如:
group 1: Product detail page
group 2: Category page
(用于在线购物网站等)。
对于这样的分类html结构(dom)相似度是我认为最好的方式。请对此提供帮助。
【问题讨论】:
它似乎太模棱两可和太具体了,以至于没有一个库来解决这个问题(“相似性”的定义是模棱两可的主要来源)。 “一个库”或“一个库的函数”或“一个简单的 Java 应用程序”对我的应用程序来说就足够了。 如果您在设计这样的应用程序时需要帮助,您需要发布更多详细信息并说明您尝试了什么/什么没有奏效。同样,不要指望已有的东西。 也许jsoup可以帮到你 我使用jsoup提取数据。例子;对于一个商品详情页,提取商品名称、图片、价格等。不知道jsoup能不能用来比较dom相似度。 【参考方案1】:不完全是你问的,但如果 HTMl 是 XML 有效的,你可以使用 XMLUnit,它是 very simple 来比较相似性。
【讨论】:
以上是关于爪哇。比较网页结构 (dom) 的相似性。的主要内容,如果未能解决你的问题,请参考以下文章