分布式搜索引擎ElasticSearch-1

Posted endorphinnnn

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分布式搜索引擎ElasticSearch-1相关的知识,希望对你有一定的参考价值。

1、初识ES

1.1.了解ES

1.1.1.作用

开源搜索引擎,从海量数据中快速找到需要的内容

1.1.2.ELK技术栈

elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域。而elasticsearch是elastic stack的核心,负责存储、搜索、分析数据。

1.1.3.elasticsearch和Lucene

elasticsearch底层是基于lucene来实现的。

Lucene是一个Java语言的搜索引擎类库,提供了搜索引擎的核心API

Lucene优势:以扩展、高性能(基于倒排索引)
Lucene缺点:只限于Java语言开发、学习曲线陡峭、不支持水平扩展

1.2.倒排索引

倒排索引的概念是基于mysql这样的正向索引。

1.2.1.正向索引

根据id建立索引。id和title建表,如果基于title做模糊查询,那么只能根据id进行逐行扫描。

是根据文档找词条的过程。

优点:

  • 可以给多个字段创建索引
  • 根据索引字段搜索、排序速度非常快
    缺点:
  • 根据非索引字段或者索引字段中的部分词条查找时,只能全表扫描

1.2.2.倒排索引

有两个非常重要的概念:

  • 文档(Document):用来搜索的数据,其中的每一条数据就是一个文档。
  • 词条(Term):对文档数据或用户搜索数据,利用某种算法分词,得到的具体含义的词语就是词条。分词。

创建倒排索引是对正向索引的一种特殊处理:

  • 将每一个文档的数据利用算法分词,得到一个个词条
  • 创建表,每行数据包括词条、词条所在文档id、位置等信息
  • 因为词条唯一性,可以给词条创建索引。

是根据词条找文档的过程。

优点:

  • 根据词条搜索、模糊搜索时,速度非常快
    缺点:
  • 只能给词条创建索引,而不是字段
  • 无法根据字段做排序

1.3.ES的一些概念

文档
es是面向文档存储的,可以是数据库的一条商品数据、一个订单信息。文档数据会被序列化为json格式后存储在es中。
字段
json文档中往往包含很多的字段(field),类似于数据库中的列。
索引
相同类型的文档的集合,可以把索引当做数据库中的表。
映射
数据库的表会有约束信息,用来定义表的结构、字段的名称、类型等信息。因此索引库中的映射,就是索引中文档的字段约束信息,类似表的结构约束。
mysql
擅长事务类型操作,可以确保数据的安全和一致性
elasticsearch
擅长海量数据的搜索、分析、计算

MySQLElasticsearch说明
TableIndex索引(index),就是文档的集合,类似数据库的表(table)
RowDocument文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式
ColumnField字段(Field),就是JSON文档中的字段,类似数据库中的列(Column)
SchemaMappingMapping(映射)是索引中文档的约束,例如字段类型约束。类似数据库的表结构(Schema)
SQLDSLDSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD
  • 对于安全性较高的写操作,使用mysql实现
  • 对于查询性能较高的搜索需求,使用es实现
  • 两者再基于某种方式,实现数据的同步,保证一致性

1.4.分词器

作用

  • 创建倒排索引时对文档分词
  • 用户搜索时,对输入的内容分词
    模式
  • ik_smart:只能切分,粗粒度
  • ik_max_work:最细切分,细粒度
    如何扩展词条、停用词条
  • 利用config牡蛎的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典
  • 在词典中添加拓展词条或者停用词条
    在ext.dic文件里添加拓展词条,在stopword.dic文件里添加停用词条。
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
        <entry key="ext_stopwords">stopword.dic</entry>
</properties>

2、索引库操作

Rest(PUT、GET、DELETE)

2.1.mapping映射属性

mapping是对索引库中文档的约束,常见的mapping属性包括:

  • type:字段数据类型,常见的简单类型有:
    • 字符串:text(可分词的文本)、keyword(精确值,例如品牌、国家等不分词)
    • 数值:long、integer等
    • 布尔:boolean
    • 日期:date
    • 对象:object
  • index:是否创建索引,默认为true
  • analyzer:使用哪种分词器
  • properties:该字段的子字段

2.2.索引库的CRUD

2.2.1.创建索引库

# PUT /索引库名称
PUT /heima

  "mappings": 
    "properties": 
      "info":
        "type": "text",
        "analyzer": "ik_smart"
      ,
      "email":
        "type": "keyword",
        "index": "falsae"
      ,
      "name":
        "properties": 
          "firstName": 
            "type": "keyword"
          
        
      ,
      // ...
  

2.2.2.修改索引库(添加字段)

索引库一旦创建,无法修改mapping中已有的字段,但是允许添加新字段到mapping中。

PUT /索引库名/_mapping

  "properties": 
    "新字段名":
      "type": "integer"
    
  

2.2.3.查看索引库

GET /索引库名

2.2.4.删除索引库

DELETE /索引库名

3、文档操作

3.1.新增文档

可以用post和put,但是post新增不指定id系统会自动新建一个id;而get不指定id系统不会分配。

POST /索引库名/_doc/文档id

    "字段1": "值1",
    "字段2": "值2",
    "字段3": 
        "子属性1": "值3",
        "子属性2": "值4"
    ,
    // ...

3.2.查询文档

GET /索引库名称/_doc/id

3.3.删除文档

DELETE /索引库名/_doc/id值

3.4.修改文档

  • 全量修改(id存在,即为修改;不存在,即为新增)
    会删除旧文档,添加新文档
POST /索引库名/_doc/文档id

    "字段1": "值1",
    "字段2": "值2",
    "字段3": 
        "子属性1": "值3",
        "子属性2": "值4"
    ,
    // ...

  • 增量修改
    修改指定字段的值
POST /索引库名/_update/文档id

    "doc": 
         "字段名": "新的值",
    

4、RestAPI

ES中支持两种地理坐标数据类型:

  • geo_point:点
  • geo_shape:多个点连接形成的形状

copy_to:将当前字段拷贝到指定字段

核心是client.indices()方法来获取索引库的操作对象。

4.1.初始化RestClient

在elasticsearch提供的API中,与elasticsearch一切交互都封装在一个名为RestHighLevelClient的类中,必须先完成这个对象的初始化,建立与elasticsearch的连接:
1、导入es的RestHighLevelClient依赖:

<dependency>
    <groupId>org.elasticsearch.client</groupId>
    <artifactId>elasticsearch-rest-high-level-client</artifactId>
</dependency>

2、因为SpringBoot默认的ES版本是7.6.2,所以我们需要覆盖默认的ES版本:

<properties>
    <java.version>1.8</java.version>
    <elasticsearch.version>7.12.1</elasticsearch.version>
</properties>

3、初始化RestHighLevelClient

RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(
        //填写自己的IP值和端口
        HttpHost.create("http://192.168.150.101:9200")
));

4.2.创建索引库

  • 1)创建Request对象。因为是创建索引库的操作,因此Request是CreateIndexRequest。
  • 2)添加请求参数,其实就是DSL的JSON参数部分。因为json字符串很长,这里是定义了静态字符串常量MAPPING_TEMPLATE,让代码看起来更加优雅。
  • 3)发送请求,client.indices()方法的返回值是IndicesClient类型,封装了所有与索引库操作有关的方法。
//MAPPING_TEMPLATE是自己定义的格式
@Test
void createHotelIndex() throws IOException 
    // 1.创建Request对象
    CreateIndexRequest request = new CreateIndexRequest("hotel");
    // 2.准备请求的参数:DSL语句
    request.source(MAPPING_TEMPLATE, XContentType.JSON);
    // 3.发送请求
    client.indices().create(request, RequestOptions.DEFAULT);

4.3.删除索引库

  • 1)创建Request对象。这次是DeleteIndexRequest对象
  • 2)准备参数。这里是无参
  • 3)发送请求。改用delete方法
@Test
void testDeleteHotelIndex() throws IOException 
    // 1.创建Request对象
    DeleteIndexRequest request = new DeleteIndexRequest("hotel");
    // 2.发送请求
    client.indices().delete(request, RequestOptions.DEFAULT);

4.4.判断索引库是否存在

  • 1)创建Request对象。这次是GetIndexRequest对象
  • 2)准备参数。这里是无参
  • 3)发送请求。改用exists方法
@Test
void testExistsHotelIndex() throws IOException 
    // 1.创建Request对象
    GetIndexRequest request = new GetIndexRequest("hotel");
    // 2.发送请求
    boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);
    // 3.输出
    System.err.println(exists ? "索引库已经存在!" : "索引库不存在!");

5、RestClient操作文档

数据库结构和索引库结构会不一致,所以需要新建类库来使结构保持一致。

5.1.新增文档

@Test
void testAddDocument() throws IOException 
    // 1.根据id查询酒店数据
    Hotel hotel = hotelService.getById(61083L);
    // 2.转换为文档类型
    HotelDoc hotelDoc = new HotelDoc(hotel);
    // 3.将HotelDoc转json
    String json = JSON.toJSONString(hotelDoc);

    // 1.准备Request对象
    IndexRequest request = new IndexRequest("hotel").id(hotelDoc.getId().toString());
    // 2.准备Json文档
    request.source(json, XContentType.JSON);
    // 3.发送请求
    client.index(request, RequestOptions.DEFAULT);

5.2.查询文档

@Test
void testGetDocumentById() throws IOException 
    // 1.准备Request
    GetRequest request = new GetRequest("hotel", "61082");
    // 2.发送请求,得到响应
    GetResponse response = client.get(request, RequestOptions.DEFAULT);
    // 3.解析响应结果
    String json = response.getSourceAsString();

    HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
    System.out.println(hotelDoc);

5.3.删除文档

@Test
void testDeleteDocument() throws IOException 
    // 1.准备Request
    DeleteRequest request = new DeleteRequest("hotel", "61083");
    // 2.发送请求
    client.delete(request, RequestOptions.DEFAULT);

5.4.修改文档

  • 全量修改:与新增的API完全一致,如果新增时id已存在,则修改;如果新增时id不存在,则新增。
  • 增量修改:
@Test
void testUpdateDocument() throws IOException 
    // 1.准备Request
    UpdateRequest request = new UpdateRequest("hotel", "61083");
    // 2.准备请求参数
    request.doc(
        "price", "952",
        "starName", "四钻"
    );
    // 3.发送请求
    client.update(request, RequestOptions.DEFAULT);

5.5.批量导入文档

BulkRequest做批量操作,有批量的增、删、查操作。

@Test
void testBulkRequest() throws IOException 
    // 批量查询酒店数据
    List<Hotel> hotels = hotelService.list();

    // 1.创建Request
    BulkRequest request = new BulkRequest();
    // 2.准备参数,添加多个新增的Request
    for (Hotel hotel : hotels) 
        // 2.1.转换为文档类型HotelDoc
        HotelDoc hotelDoc = new HotelDoc(hotel);
        // 2.2.创建新增文档的Request对象
        request.add(new IndexRequest("hotel")
                    .id(hotelDoc.getId().toString())
                    .source(JSON.toJSONString(hotelDoc), XContentType.JSON));
    
    // 3.发送请求
    client.bulk(request, RequestOptions.DEFAULT);

以上是关于分布式搜索引擎ElasticSearch-1的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch 分布式搜索引擎 -- 初识elasticsearch(了解ES倒排索引es的一些概念安装eskibana)

分布式搜索引擎ElasticSearch-1

ElasticSearch分布式搜索引擎从入门到实战应用(实战篇-仿京东首页搜索商品高亮显示)

分布式全文搜索引擎ElasticSearch

分布式全文搜索引擎ElasticSearch—超详细

大数据分析利器ElasticSearch入门