R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(二,textreuse介绍)

Posted 悟乙己

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(二,textreuse介绍)相关的知识,希望对你有一定的参考价值。



每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~

———————————————————————————


        上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢?

        于是在网上搜索了一下,真的发现了一个叫textreuse的包可以实现这样的功能,而且该包较为完整,可以很好地满足要求。

现在的版本是 0.1.3,最近的更新的时间为 2016-03-28。

        国内貌似比较少的用这个包来实现这个功能,毕竟R语言在运行大规模数据的性能比较差,而LSH又是处理大规模数据的办法,所以可能国内比较少的用R来执行这个算法。


以上是关于R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(二,textreuse介绍)的主要内容,如果未能解决你的问题,请参考以下文章

LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn

LSH︱python实现局部敏感随机投影森林——LSHForest/sklearn

LSH(局部敏感哈希)算法

局部敏感哈希算法

局部敏感哈希LSH

文本局部敏感哈希-MinHash算法原理