是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现
Posted
技术标签:
【中文标题】是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现【英文标题】:Is there an implementation of the idea described in "Detecting NearDuplicates for Web Crawling" 【发布时间】:2011-05-03 11:25:08 【问题描述】:论文:http://www2007.org/papers/paper215.pdf
我只是想知道该论文的第 3 章是否有任何实现。我的意思是在大型数据集之间进行查询,而不仅仅是 simhash(很容易找到 simhash 实现)。
谢谢~
【问题讨论】:
如果您在codegolf.stackexchange.com 提出问题,您可能会以免费的 250 字节 perl 实现结束。这是个笑话。 【参考方案1】:这里是one,虽然我还没有测试过它是否有效。好在它的开源。
【讨论】:
我已经找到了。我的意思是我正在寻找该论文中第 3 章的实施。不过还是谢谢~【参考方案2】:这是Data mining
和similarity search
中的问题。有许多文章描述了如何做到这一点,并扩展到海量数据。
我有一个wikipedia : Metric tree 的实现(github : mksteve, clustering,在我的blog 中有一些关于它的cmets)。这要求您所做的测量满足三角不等式(wikipedia : Metric space。即项目 A 到项目 C 的度量距离小于或等于 A 到 B 的距离 + B 到 C 的距离。
鉴于这种不平等,可以修剪搜索空间,因此只搜索可能与您的目标区域重叠的子树。如果该功能不成立(度量空间)。
simhash 中的差异位数可能是一个度量空间。
这些数据集的一般用法,在文档中提到 mapReduce 时提到,它通常在 hadoop cluster
上运行。每个处理节点都被赋予一个数据子集,并从它们的本地数据集中找到一组目标匹配。然后将它们组合起来,给出一个类似项目的完全排序列表。
有一些论文(不确定参考文献)提到在集群中使用 m-tree,其中搜索空间的不同部分被分配给不同的集群,但我不确定 hadoop 基础结构是否支持使用如此高级别的抽象。
【讨论】:
以上是关于是否有“Detecting NearDuplicates for Web Crawling”中描述的想法的实现的主要内容,如果未能解决你的问题,请参考以下文章
是否可以检查用户是否有摄像头和麦克风以及是否已通过 Javascript 授予权限?