是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现

Posted 2023-02-19

技术标签:

【中文标题】是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现【英文标题】：Is there an implementation of the idea described in "Detecting NearDuplicates for Web Crawling" 【发布时间】：2011-05-03 11:25:08 【问题描述】：

论文：http://www2007.org/papers/paper215.pdf

我只是想知道该论文的第 3 章是否有任何实现。我的意思是在大型数据集之间进行查询，而不仅仅是 simhash（很容易找到 simhash 实现）。

谢谢~

【问题讨论】：

如果您在codegolf.stackexchange.com 提出问题，您可能会以免费的 250 字节 perl 实现结束。这是个笑话。 【参考方案1】：

这里是one，虽然我还没有测试过它是否有效。好在它的开源。

【讨论】：

我已经找到了。我的意思是我正在寻找该论文中第 3 章的实施。不过还是谢谢~【参考方案2】：

这是Data mining 和similarity search 中的问题。有许多文章描述了如何做到这一点，并扩展到海量数据。

我有一个wikipedia : Metric tree 的实现（github : mksteve, clustering，在我的blog 中有一些关于它的cmets）。这要求您所做的测量满足三角不等式（wikipedia : Metric space。即项目 A 到项目 C 的度量距离小于或等于 A 到 B 的距离 + B 到 C 的距离。

鉴于这种不平等，可以修剪搜索空间，因此只搜索可能与您的目标区域重叠的子树。如果该功能不成立（度量空间）。

simhash 中的差异位数可能是一个度量空间。

这些数据集的一般用法，在文档中提到 mapReduce 时提到，它通常在 hadoop cluster 上运行。每个处理节点都被赋予一个数据子集，并从它们的本地数据集中找到一组目标匹配。然后将它们组合起来，给出一个类似项目的完全排序列表。

有一些论文（不确定参考文献）提到在集群中使用 m-tree，其中搜索空间的不同部分被分配给不同的集群，但我不确定 hadoop 基础结构是否支持使用如此高级别的抽象。

【讨论】：

以上是关于是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现的主要内容，如果未能解决你的问题，请参考以下文章

是否可以检查用户是否有摄像头和麦克风以及是否已通过 Javascript 授予权限？

是否有可能发现照片是否被拍摄？

是否有一个 jOOQ 工具来验证生成的定义是否仍然正确？

SQL数据是否存在(是否有数据)判断,表,存储过程是否存在

是否有任何API可以检查WiFi是否已连接到Internet？

是否有谷歌 api 来验证 gmail 是否在 java 中有效？