ElasticSearch_01_ES的引入

Posted 2022-10-11 毛奇志

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ElasticSearch_01_ES的引入相关的知识，希望对你有一定的参考价值。

系列文章目录

文章目录

系列文章目录
前言
一、ES的引入
二、ES操作索引index
三、ES操作映射mapping
四、ES操作文档document
总结

前言

本文使用的es操作的语句：https://www.syjshare.com/res/5AZN5TD4

一、ES的引入

同样是索引库，ES相对于Solr的三个优点，Elasticsearch具备以下特点：
1、天然基于分布式，无需人工搭建集群（solr就需要人为配置，使用Zookeeper作为注册中心）
2、基于Restful风格，一切API都遵循Rest原则，容易上手
3、数据一致性，近实时搜索，数据更新在Elasticsearch中几乎是完全同步的。

要注意的是：Elasticsearch本身就是分布式的，因此即便你只有一个节点，Elasticsearch默认也会对你的数据进行分片和副本操作，当你向集群添加新数据时，数据也会在新加入的节点中进行平衡。

二、ES操作索引index

2.1 ES索引库和mysql关系型数据库

Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与MySQL类似的。

对比关系：

索引（indices）--------------------------------Databases 数据库
类型（type）-----------------------------Table 数据表
文档（Document）----------------Row 行
字段（Field）-------------------Columns 列

index type document/record field

详细说明：

概念	说明
索引库（indices)	indices是index的复数，代表许多的索引，
类型（type）	类型是模拟mysql中的table概念，一个索引库下可以有不同类型的索引，比如商品索引，订单索引，其数据格式不同。不过这会导致索引库混乱，因此未来版本中会移除这个概念，即一个索引只有一个类型
文档（document）	存入索引库原始的数据。比如每一条商品信息，就是一个文档
字段（field）	文档中的属性
映射配置（mappings）	字段定义，类似mysql表设计，字段的数据类型、属性、是否索引、是否存储等特性

是不是与Lucene和solr中的概念类似。另外，在SolrCloud中，有一些集群相关的概念，Elasticsearch本身就是基于分布式的，在Elasticsearch也有类似的：

索引集（Indices，index的复数）：逻辑上的完整索引
分片（shard）：数据拆分后的各个部分 (number_of_shards属性指定)
副本（replica）：每个分片的复制 (number_of_replicas属性指定)

要注意的是：Elasticsearch本身就是分布式的，因此即便你只有一个节点，Elasticsearch默认也会对你的数据进行分片和副本操作，当你向集群添加新数据时，数据也会在新加入的节点中进行平衡。

2.2 操作一，创建索引 PUT

2.2.1.语法

Elasticsearch采用Rest风格API，因此其API就是一次http请求，你可以用任何工具发起http请求

创建索引的请求格式：
第一，请求方式：PUT
第二，请求路径：/索引库名
第三，请求参数：json格式：


    "settings": 
        "number_of_shards": 3,
        "number_of_replicas": 2

第四，settings：索引库的设置

- number_of_shards：分片数量
- number_of_replicas：副本数量

2.2.2 使用Postman创建索引

我们先用RestClient来试试

http://192.168.100.170:9200/myindex

    "settings": 
        "number_of_shards": 3,
        "number_of_replicas": 2

可以看到索引创建成功了，然后查询就有这个索引了。

2.2.3.使用kibana创建索引

kibana的控制台，可以对http请求进行简化，理由
第一，省去了elasticsearch的服务器地址，因为Kibana已经连接好ES了
第二，ES语法智能提示。

DELETE /myindex

PUT /myindex

    "settings": 
        "number_of_shards": 3,
        "number_of_replicas": 2
      


GET /_cat/indices?v&pretty

2.3 操作二，查看索引设置 GET

Get请求可以帮我们查看索引信息，格式：

GET /索引库名
GET /myindex

或者，我们可以使用*来查询所有索引库配置：

2.4 操作三，删除索引 DELETE

删除索引使用DELETE请求，再次查看myindex，另外，我们也可以用HEAD请求，查看索引是否存在：

语法

DELETE /索引库名

DELETE /myindex
GET /myindex
HEAD /myindex

三、ES操作映射mapping

索引有了，接下来肯定是添加数据。但是，在添加数据之前必须定义映射。

什么是映射？映射是定义文档的过程，文档包含哪些字段，这些字段是否保存，是否索引，是否分词等，就是类似于mysql中新建表。

只有配置清楚，Elasticsearch才会帮我们进行索引库的创建（不一定）

3.1 创建映射字段 PUT /索引库名/_mapping/类型名称

语法

请求方式依然是PUT

PUT /索引库名/_mapping/类型名称

  "properties": 
    "字段名": 
      "type": "类型",
      "index": true，
      "store": true，
      "analyzer": "分词器"

类型名称：就是前面将的type的概念，类似于数据库中的不同表
字段名：任意填写，可以指定许多属性，例如：
type：类型，可以是text、long、short、date、integer、object等
index：是否索引，默认为true
store：是否存储，默认为false
analyzer：分词器，这里的ik_max_word即使用ik分词器

示例

发起请求：

PUT /myindex

    "settings": 
        "number_of_shards": 3,
        "number_of_replicas": 2
      


PUT /myindex/_mapping/goods

  "properties": 
    "title": 
      "type": "text",
      "analyzer": "ik_max_word"
    ,
    "images": 
      "type": "keyword",
      "index": "false"
    ,
    "price": 
      "type": "float"

响应结果：


  "acknowledged": true

3.2 查看映射关系 GET /索引库名/_mapping

语法：

GET /索引库名/_mapping

示例：

GET /myindex/_mapping

响应：


  "myindex" : 
    "mappings" : 
      "goods" : 
        "properties" : 
          "images" : 
            "type" : "keyword",
            "index" : false
          ,
          "price" : 
            "type" : "float"
          ,
          "title" : 
            "type" : "text",
            "analyzer" : "ik_max_word"

3.3 映射mapping中的每一个字段属性详解

mapping映射的作用是定义每一个字段，每一个字段除了名称之外，有三个属性，包括 type 数据类型（没有默认值，每个字段必须设置数据类型），index 表示是否应该在这个字段上设置索引（默认是true，就是每个字段上都设置索引），store 表示是否将数据冗余存储一份（默认为false，不需要冗余存储）。

1、type,Elasticsearch中支持的数据类型非常丰富

Elasticsearch中支持的数据类型非常丰富：

我们说几个关键的：

String类型，又分两种：
- text：可分词，不可参与聚合
- keyword：不可分词(数据会作为完整字段进行匹配)，可以参与聚合
Numerical：数值类型，分两类
- 基本数据类型：long、interger、short、byte、double、float、half_float
- 浮点数的高精度类型：scaled_float
  - 需要指定一个精度因子，比如10或100。elasticsearch会把真实值乘以这个因子后存储，取出时再还原。
Date：日期类型

elasticsearch可以对日期格式化为字符串存储，但是建议我们存储为毫秒值，存储为long，节省空间。

2、index 该字段是否使用索引

true：字段会被索引，则可以用来进行搜索。默认值就是true
false：字段不会被索引，不能用来搜索

index的默认值就是true，也就是说你不进行任何配置，所有字段都会被索引，因为ES要加快检索速度，所以默认有索引。

但是有些字段是我们不希望被索引的，比如商品的图片信息，就需要手动设置index为false。

3、store 是否将数据进行额外存储

在学习lucene和solr时，我们知道如果一个字段的store设置为false，那么在文档列表中就不会有这个字段的值，用户的搜索结果中不会显示出来。

但是在Elasticsearch中，即便store设置为false，也可以搜索到结果。

原因是Elasticsearch在创建文档索引时，会将文档中的原始数据备份，保存到一个叫做_source的属性中。而且我们可以通过过滤_source来选择哪些要显示，哪些不显示。

而如果设置store为true，就会在_source以外额外存储一份数据，多余，因此一般我们都会将store设置为false，事实上，store的默认值就是false。

四、ES操作文档document

4.1 数据操作：新增数据 POST /索引库名/类型名

索引和mapping都建立好了，开始数据操作

1、新增数据，随机生成id

通过POST请求，可以向一个已经存在的索引库中添加数据。

语法：

POST /索引库名/类型名

    "key":"value"

示例：

POST /myindex/goods/

    "title":"小米手机",
    "price":2699.00

响应：


  "_index": "myindex",
  "_type": "goods",
  "_id": "gC5mnYMBWh49nJYX_01W",
  "_version": 1,
  "result": "created",
  "_shards": 
    "total": 3,
    "successful": 1,
    "failed": 0
  ,
  "_seq_no": 0,
  "_primary_term": 2

通过kibana查看数据：

get _search

    "query":
        "match_all":


  "took" : 2,
  "timed_out" : false,
  "_shards" : 
    "total" : 3,
    "successful" : 3,
    "skipped" : 0,
    "failed" : 0
  ,
  "hits" : 
    "total" : 1,
    "max_score" : 1.0,
    "hits" : [
      
        "_index" : "myindex",
        "_type" : "goods",
        "_id" : "gC5mnYMBWh49nJYX_01W",
        "_score" : 1.0,
        "_source" : 
          "title" : "小米手机",
          "price" : 2699.0
        
      
    ]

_source：源文档信息，所有的数据都在里面。
_id：这条文档的唯一标示，与文档自己的id字段没有关联

2、新增数据，自定义id POST /索引库名/类型/id值

如果我们想要自己新增的时候指定id，可以这么做：

POST /索引库名/类型/id值

    ...

示例：

POST /myindex/goods/2

    "title":"大米手机",
    "price":2899.00



GET /_search

    "query":
        "match_all":

得到的数据：

3、智能判断（新增数据的时候，我们额外添加了stock库存，和saleable是否上架两个字段）

在学习Solr时我们发现，我们在新增数据时，只能使用提前配置好映射属性的字段，否则就会报错。

不过在Elasticsearch中并没有这样的规定。

事实上Elasticsearch非常智能，你不需要给索引库设置任何mapping映射，它也可以根据你输入的数据来判断类型，动态添加数据映射。

测试一下：

POST /myindex/goods/3

    "title":"超米手机",
    "price":2899.00,
    "stock": 200,
    "saleable":true

我们额外添加了stock库存，和saleable是否上架两个字段。

来看结果：


  "_index" : "myindex",
  "_type" : "goods",
  "_id" : "3",
  "_version" : 1,
  "result" : "created",
  "_shards" : 
    "total" : 3,
    "successful" : 1,
    "failed" : 0
  ,
  "_seq_no" : 0,
  "_primary_term" : 1

GET /myindex/_mapping

在看下索引库的映射关系:


  "myindex" : 
    "mappings" : 
      "goods" : 
        "properties" : 
          "images" : 
            "type" : "keyword",
            "index" : false
          ,
          "price" : 
            "type" : "float"
          ,
          "saleable" : 
            "type" : "boolean"
          ,
          "stock" : 
            "type" : "long"
          ,
          "title" : 
            "type" : "text",
            "analyzer" : "ik_max_word"

stock和saleable都被成功映射了。

4.2 修改数据 PUT（新增数据POST）

把刚才新增的请求方式改为PUT，就是修改了。不过修改必须指定id，

id对应文档存在，则修改
id对应文档不存在，则新增

比如，我们把id为3的数据进行修改：

PUT /myindex/goods/3

    "title":"超大米手机",
    "price":3899.00,
    "stock": 100,
    "saleable":true

结果：


  "took" : 7,
  "timed_out" : false,
  "_shards" : 
    "total" : 3,
    "successful" : 3,
    "skipped" : 0,
    "failed" : 0
  ,
  "hits" : 
    "total" : 3,
    "max_score" : 1.0,
    "hits" : [
      
        "_index" : "myindex",
        "_type" : "goods",
        "_id" : "2",
        "_score" : 1.0,
        "_source" : 
          "title" : "大米手机",
          "price" : 2899.0
        
      ,
      
        "_index" : "myindex",
        "_type" : "goods",
        "_id" : "gC5mnYMBWh49nJYX_01W",
        "_score" : 1.0,
        "_source" : 
          "title" : "小米手机",
          "price" : 2699.0
        
      ,
      
        "_index" : "myindex",
        "_type" : "goods",
        "_id" : "3",
        "_score" : 1.0,
        "_source" : 
          "title" : "超大米手机",
          "price" : 3899.0,
          "stock" : 100,
          "saleable" : true
        
      
    ]

4.3 删除数据 DELETE /索引库名/类型名/id值

删除使用DELETE请求，同样，需要根据id进行删除：

语法

DELETE /索引库名/类型名/id值

DELETE /myindex/goods/2

GET /_search

    "query":
        "match_all":

总结

index/type - mapping - document

index/type 类似mysql中数据库/数据表中的概念，一般一个 index 只会有一个 type .

es操作语句的方法论是：先操作索引，然后定义映射，最后数据操作。

本文使用的es操作的语句：https://www.syjshare.com/res/5AZN5TD4

以上是关于ElasticSearch_01_ES的引入的主要内容，如果未能解决你的问题，请参考以下文章

ElasticSearch_01_ES的引入

架构师成长记_第八周_21_Springboot 整合 elasticsearch

架构师成长记_第八周_20_Elasticsearch 集群构建