elasticsearchES 相似文章检测

Posted 九师兄

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了elasticsearchES 相似文章检测相关的知识,希望对你有一定的参考价值。

在这里插入图片描述

1.概述

对于大文本的去重,可以参考 SimHash 算法,通过 SimHash 可以提取到文档指纹(64位),两篇文章通过 SimHash 计算海明距离即可判断是否重复。海明距离计算,可以通过插件实现:https://github.com/joway/elasticsearch-hamming-plugin

以上是关于elasticsearchES 相似文章检测的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch:Dynamic field mapping

elasticsearch基本使用

Elasticsearch5.X IN Windows 10 系列文章

ElasticSearch相关概念总结

ELK集群安装教程

ElasticSearchEs 源码之 IndicesService 源码解读