是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现

Posted

技术标签:

【中文标题】是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现【英文标题】:Is there an implementation of the idea described in "Detecting NearDuplicates for Web Crawling" 【发布时间】:2011-05-03 11:25:08 【问题描述】:

论文:http://www2007.org/papers/paper215.pdf

我只是想知道该论文的第 3 章是否有任何实现。我的意思是在大型数据集之间进行查询,而不仅仅是 simhash(很容易找到 simhash 实现)。

谢谢~

【问题讨论】:

如果您在codegolf.stackexchange.com 提出问题,您可能会以免费的 250 字节 perl 实现结束。这是个笑话。 【参考方案1】:

这里是one,虽然我还没有测试过它是否有效。好在它的开源。

【讨论】:

我已经找到了。我的意思是我正在寻找该论文中第 3 章的实施。不过还是谢谢~【参考方案2】:

这是Data miningsimilarity search 中的问题。有许多文章描述了如何做到这一点,并扩展到海量数据。

我有一个wikipedia : Metric tree 的实现(github : mksteve, clustering,在我的blog 中有一些关于它的cmets)。这要求您所做的测量满足三角不等式(wikipedia : Metric space。即项目 A 到项目 C 的度量距离小于或等于 A 到 B 的距离 + B 到 C 的距离。

鉴于这种不平等,可以修剪搜索空间,因此只搜索可能与您的目标区域重叠的子树。如果该功能不成立(度量空间)。

simhash 中的差异位数可能是一个度量空间。

这些数据集的一般用法,在文档中提到 mapReduce 时提到,它通常在 hadoop cluster 上运行。每个处理节点都被赋予一个数据子集,并从它们的本地数据集中找到一组目标匹配。然后将它们组合起来,给出一个类似项目的完全排序列表。

有一些论文(不确定参考文献)提到在集群中使用 m-tree,其中搜索空间的不同部分被分配给不同的集群,但我不确定 hadoop 基础结构是否支持使用如此高级别的抽象。

【讨论】:

以上是关于是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现的主要内容,如果未能解决你的问题,请参考以下文章

是否可以检查用户是否有摄像头和麦克风以及是否已通过 Javascript 授予权限?

是否有可能发现照片是否被拍摄?

是否有一个 jOOQ 工具来验证生成的定义是否仍然正确?

SQL数据是否存在(是否有数据)判断,表,存储过程是否存在

是否有任何API可以检查WiFi是否已连接到Internet?

是否有谷歌 api 来验证 gmail 是否在 java 中有效?