浅谈使用ElasticSearch实现全文检索

Posted 2021-04-21 IDEADATA大数据视界

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了浅谈使用ElasticSearch实现全文检索相关的知识，希望对你有一定的参考价值。

现如今，无论是互联网信息还是企业内部每天产生的信息，都在以指数级增长，对于企业内部，每天发生的大量数据，尤其是非结构化数据中，如何能快速查找到对企业内部有用的信息，成为每个公司开始关注的重点。

前段时间，笔者就接到类似的需求，某大型保险企业，希望能够将每天发生在企业内部的非结构化数据进行存储与检索，方便内部人员及时了解相关信息，提高部门间信息共享，提升工作效率。

这个其实是一个很典型的内容管理的相关需求，具体的技术选型和架构此处就不详细展开一一去讲，本文主要就如何使用ElasticSearch进行全文检索，满足用户需求来浅谈一二。

一、ElasticSearch是什么？

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二流行的企业搜索引擎。能够达到实时搜索，稳定，可靠，快速，安装使用方便，零配置和完全免费。

我们先说说ES的基本概念。

1、索引(Index)

ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说，索引相当于SQL中的一个数据库，或者一个数据存储方案(schema)。

索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。

2、类型(Type)

类型是索引内部的逻辑分区(category/partition)，然而其意义完全取决于用户需求。因此，一个索引内部可定义一个或多个类型(type)。一般来说，类型就是为那些拥有相同的域的文档做的预定义。

例如，在索引中，可以定义一个用于存储用户数据的类型，一个存储日志数据的类型，以及一个存储评论数据的类型。类比传统的关系型数据库领域来说，类型相当于“表”。

3、文档(Document)

文档是Lucene索引和搜索的原子单位，它是包含了一个或多个域的容器，基于JSON格式进行表示。

文档由一个或多个域组成，每个域拥有一个名字及一个或多个值，有多个值的域通常称为“多值域”。每个文档可以存储不同的域集，但同一类型下的文档至应该有某种程度上的相似之处。

4、映射(Mapping)

ES中，所有的文档在存储之前都要首先进行分析。用户可根据需要定义如何将文本分割成token、哪些token应该被过滤掉，以及哪些文本需要进行额外处理等。

另外，ES还提供了额外功能，例如将域中的内容按需排序。事实上，ES也能自动根据其值确定域的类型。

5、集群(Cluster)

ES集群是一个或多个节点的集合，它们共同存储了整个数据集，并提供了联合索引以及可跨所有节点的搜索能力。

多节点组成的集群拥有冗余能力，它可以在一个或几个节点出现故障时保证服务的整体可用性。

集群靠其独有的名称进行标识，默认名称为“elasticsearch”。节点靠其集群名称来决定加入哪个ES集群，一个节点只能属一个集群。

如果不考虑冗余能力等特性，仅有一个节点的ES集群一样可以实现所有的存储及搜索功能。

6、节点(Node)

运行了单个实例的ES主机称为节点，它是集群的一个成员，可以存储数据、参与集群索引及搜索操作。

类似于集群，节点靠其名称进行标识，默认为启动时自动生成的随机Marvel字符名称。

用户可以按需要自定义任何希望使用的名称，但出于管理的目的，此名称应该尽可能有较好的识别性。

节点通过为其配置的ES集群名称确定其所要加入的集群。

7、分片(Shard)和副本(Replica)

ES的“分片(shard)”机制可将一个索引内部的数据分布地存储于多个节点，它通过将一个索引切分为多个底层物理的Lucene索引完成索引数据的分割存储功能，这每一个物理的Lucene索引称为一个分片(shard)。

每个分片其内部都是一个全功能且独立的索引，因此可由集群中的任何主机存储。创建索引时，用户可指定其分片的数量，默认数量为5个。

ES集群可由多个节点组成，各Shard分布式地存储于这些节点上。

ES可自动在节点间按需要移动shard，例如增加节点或节点故障时。简而言之，分片实现了集群的分布式存储，而副本实现了其分布式处理及冗余功能。

OK，上面把ES相关的基本概念及原理大致说明了下，那么ES到底是怎么实现全文检索的呢？

Elasticsearch实现全文检索，首先要确定分词器，ES默认有很多分词器，可参考官方文档。了解分词器主要是怎么实现的。

一般中文分词器使用第三方的ik分词器、mmsegf分词器和paoding分词器，最初可能构建于lucene，后来移植于ES。目前我们在最新版的ES中，使用的是IK分词。

安装ik分词器到elasticsearch很简单，它有个插件目录analysis-ik，和一个配置目录ik, 分别拷贝到plugins和conf目录就可以了。

当你有大量的文本数据时，ES均会将其进行分词并将这些词语保存在索引中，当输入关键词进行查询时，索引就会起到作用，查找对应的相同的查询词，从而实现全文检索。当然这个过程是很吃内存的哦。

好了，以上大概介绍了下ES的基本原理，是不是已经对其非常感兴趣了？可以上官方网站下载并在自己机器上尝试安装与使用，之后还会根据项目中的实战经验进行进一步总结与梳理，届时分享给大家。

关于IDEADATA

IDEADATA专注于从数据到信息的有效管理与应用，是领先的商业信息服务技术提供商，是数据仓库及大数据技术和应用的先行实践者。

公司官网：www.ideadata.com.cn
新浪微博：iDEADATA大数据视界
微信关注

长按指纹或扫描下面的二维码可以直接添加：

以上是关于浅谈使用ElasticSearch实现全文检索的主要内容，如果未能解决你的问题，请参考以下文章

Docker 简单部署 ElasticSearch

elasticsearch插件之ik分词器

浅谈Spring Data ElasticSearch

使用Elasticsearch7 java api实现pdf全文检索

ElasticSearch 实现分词全文检索

Elasticsearch使用REST API实现全文检索