Elasticsearch基础

Posted 2023-01-27 Amelie11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Elasticsearch基础相关的知识，希望对你有一定的参考价值。

介绍

什么是全文搜索引擎

众所周知，常用的搜索网站有：百度、谷歌等。那么要对数据进行搜索，是不是需要先了解数据的分类

数据的分类

结构化数据：指具有固定格式或有限长度的数据，如数据库、元数据等

对于结构化的数据，一般是通过关系型数据库（mysql、oracle等）进行存储和搜索，也可以建立索引。通过b-tree等数据结构快速搜索。

非结构化数据：全文数据，指不定长度或无固定格式的数据，如文档等

对于非结构化的数据，也就是全文数据：顺序扫描法、全文搜索法

顺序扫描

按照顺序扫描的⽅式查找特定的关键字。⽐如在关于海贼王的帖子中，找出"路飞"这个名字在哪些段落出现过。那你肯定需要从头到尾把⽂章阅读⼀遍，然后标记出关键字在哪些地⽅出现过。这种⽅法想想都是最低效的。

全文搜索

对全文数据进⾏顺序扫描很慢，那怎么进行优化？把我们的⾮结构化数据想办法弄得有⼀定结构不就⾏了吗？将⾮结构化数据中的⼀部分信息提取出来，重新组织，使其变得有⼀定结构，然后对这些有⼀定结构的数据进⾏搜索，从⽽达到搜索相对较快的⽬的。这种⽅式就构成了全⽂搜索的基本思路。这部分从⾮结构化数据中提取出的然后重新组织的信息，我们称为索引。

什么是全文搜索引擎

全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。

常见的搜索引擎

Lucene，Solr，Elasticsearch

Lucene

Lucene是⼀个Java全⽂搜索引擎，只是⼀个框架，⼀个代码库和API，要充分利⽤它的功能，需要使⽤java，并且在程序中集成，这样可以很容易地⽤于向应⽤程序添加搜索功能。

通过简单的API提供强⼤的功能：

可扩展的⾼性能索引

强⼤，准确，⾼效的搜索算法

跨平台解决⽅案

Solr

Solr是⼀个基于Lucene的Java库构建的开源搜索平台。它以⽤户友好的⽅式提供Apache Lucene的搜索功能。它是⼀个成熟的产品，拥有强⼤⽽⼴泛的⽤户社区。它能提供分布式索引，复制，负载均衡查询以及⾃动故障转移和恢复。如果它被正确部署然后管理得好，它就能够成为⼀个⾼度可靠，可扩展且容错的搜索引擎

强⼤的功能

全⽂搜索

突出

分⾯搜索

实时索引

动态群集

数据库集成

NoSQL功能和丰富的⽂档处理

Elasticsearch

Elasticsearch是⼀个开源，是⼀个基于Apache Lucene库构建的Restful搜索引擎.Elasticsearch是在Solr之后⼏年推出的。它提供了⼀个分布式，多租户能⼒的全⽂搜索引擎，具有HTTP Web界⾯（REST）和⽆架构JSON⽂档。Elasticsearch的官⽅客户端库提供Java，Groovy，php，Ruby，Perl，Python，.NET和javascript。

主要功能

分布式搜索

数据分析

分组和聚合

应⽤场景

维基百科

电商⽹站

⽇志数据分析

为什么不用mysql做搜索引擎

我们的所有数据都是放在数据库⾥的，⽽且 Mysql，Oracle，SQL Server 等数据库也能提供查询搜索功能，直接通过数据库查询不就可以了？确实，我们⼤部分的查询都能通过数据库查询，如果查询效率低，还可以通过新建数据库索引，优化SQL等⽅式提升效率，也可以通过引⼊缓存⽐如redis，memcache来加快数据的返回速度。如果数据量更⼤，还可以通过分库分表来分担查询压⼒。那为什么还要全⽂搜索引擎呢

数据类型

全⽂索引搜索很好的⽀持⾮结构化数据的搜索，可以更好地快速搜索⼤量存在的任何单词⾮结构化⽂本。例如 Google，百度类的⽹站搜索，它们都是根据⽹⻚中的关键字⽣成索引，我们在搜索的时候输⼊关键字，它们会将该关键字即索引匹配到的所有⽹⻚返回；还有常⻅的项⽬中应⽤⽇志的搜索等等。对于这些⾮结构化的数据⽂本，关系型数据库搜索不能很好的⽀持。

搜索性能

如果使⽤mysql做搜索，⽐如有个人物表character，有字段名称name，要查找出

名称以“蒙奇”开头的人物，和含有蒙奇的人物。数据量达到千万级别的时候怎么办？

--该查询还好
select * from charact where name like '蒙奇%';

--无法走索引
select * from charact where name like '%蒙奇%';

灵活的索引

如果我们想查出名字叫蒙奇D路飞的人物，但是⽤户输⼊了蒙奇，我们想提示他⼀些关键字

索引的维护

⼀般传统数据库，全⽂搜索都实现的很鸡肋，因为⼀般也没⼈⽤数据库存⻓⽂本字段，因为进⾏全⽂搜索的时候需要扫描整个表，如果数据量⼤的话即使对SQL的语法进⾏优化，也是效果甚微。即使建⽴了索引，但是维护起来也很麻烦，对于 insert 和 update 操作都会重新构建索引。

适合全⽂索引引擎的场景

搜索的数据对象是⼤量的⾮结构化的⽂本数据。

⽂本数据量达到数⼗万或数百万级别，甚⾄更多。

⽀持⼤量基于交互式⽂本的查询。

需求⾮常灵活的全⽂搜索查询。

读多写少。

快速搭建elasticsearch

可以通过docker进行快速搭建,docker-compose.xml如下，

version: '3'
services:
  elasticsearch:
    image: elasticsearch:7.7.0
    container_name: amelie-elasticsearch
    environment:
      ES_JAVA_OPTS: -Djava.net.preferIPv4Stack=true -Xms512m -Xmx512m
      transport.host: 0.0.0.0
      discovery.type: single-node
      bootstrap.memory_lock: "true"
      discovery.zen.minimum_master_nodes: 1
      discovery.zen.ping.unicast.hosts: elasticsearch
    volumes:
      - elasticsearch-volume:/usr/share/elasticsearch/data
    ports:
      - "9200:9200"
      - "9300:9300"
  kibana:
    image: kibana:7.7.0
    container_name: amelie-kibana
    environment:
      ELASTICSEARCH_URL: http://elasticsearch:9200
    links:
      - elasticsearch:elasticsearch
    ports:
      - "5602:5601"
    depends_on:
      - elasticsearch
      
volumes:
  elasticsearch-volume:

启动：docker-compose up -d

访问http://localhost:5602即可看到kibana的界面

访问http://localhost:9200/可看到elastic相关信息

基础使用

elastic search核⼼概念

Elasticsearch	关系型数据库
索引(index)	数据库
类型(type)：注意： ES 5.x中⼀个index可以有多种type。 ES 6.x中⼀个index只能有⼀种type。 ES 7.x以后已经移除type这个概念	表：如用户表、角色表
映射(mapping)，定义了每个字段的类型等信息	表结构
⽂档(document)	⼀⾏记录
字段(field)	字段

集群(cluster)

集群由⼀个或多个节点组成，⼀个集群有⼀个默认名称"elasticsearch"。

节点(node)

集群的节点，⼀台机器或者⼀个进程

分⽚和副本(shard)

副本是分⽚的副本。分⽚有主分⽚(primary Shard)和副本分⽚(replica Shard)。⼀个Index数据在物理上被分布在多个主分⽚中，每个主分⽚只存放部分数据。每个主分⽚可以有多个副本，叫副本分⽚，是主分⽚的复制。

快速入门

获取elasticsearch状态

GET http://localhost:9200


  "name" : "998d3cf2e56e",
  "cluster_name" : "docker-cluster",
  "cluster_uuid" : "0nXilfyMQsGENqRBsIyA3g",
  "version" : 
    "number" : "7.7.0",
    "build_flavor" : "default",
    "build_type" : "docker",
    "build_hash" : "81a1e9eda8e6183f5237786246f6dced26a10eaf",
    "build_date" : "2020-05-12T02:01:37.602180Z",
    "build_snapshot" : false,
    "lucene_version" : "8.5.1",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  ,
  "tagline" : "You Know, for Search"

新增文档

PUT localhost:9200/user/_doc/1

删除文档

DELETE localhost:9200/user/_doc/1

索引的使用

方法	URL	结果
新增	PUT localhost:9200/onepiece	`"acknowledged": true, "shards_acknowledged": true, "index": "onepiece"`
获取	GET localhost:9200/onepiece	`"onepiece": "aliases": , "mappings": , "settings": "index": "creation_date": "1674566184795", "number_of_shards": "5", "number_of_replicas": "1", "uuid": "KXiiXlCgS8ihUUqjghpb5Q", "version": "created": "6081199" , "provided_name": "onepiece"`
删除	DELETE localhost:9200/onepiece	`"acknowledged": true`
批量获取	GET localhost:9200/onepiece,user	"onepiece": "aliases": , "mappings": , "settings": "index": "creation_date": "1674566591562", "number_of_shards": "5", "number_of_replicas": "1", "uuid": "dLrYdXpISLGTJJ82dfOA-A", "version": "created": "6081199" , "provided_name": "onepiece" , "user": "aliases": , "mappings": "_doc": "properties": "age": "type": "text", "fields": "keyword": "type": "keyword", "ignore_above": 256 , "username": "type": "text", "fields": "keyword": "type": "keyword", "ignore_above": 256 , "settings": "index": "creation_date": "1674564715527", "number_of_shards": "5", "number_of_replicas": "1", "uuid": "hYr7yo0KRDqqlrcoqHmKEA", "version": "created": "6081199" , "provided_name": "user"
获取所有	GET localhost:9200/_all GET localhost:9200/_cat/indices?v	第二种方式返回：
关闭	POST localhost:9200/onepiece/_close	`"acknowledged": true` 关闭索引后，就无法再创建文档，若创建则会报错： `"error": "root_cause": [ "type": "index_closed_exception", "reason": "closed", "index_uuid": "dLrYdXpISLGTJJ82dfOA-A", "index": "onepiece" ], "type": "index_closed_exception", "reason": "closed", "index_uuid": "dLrYdXpISLGTJJ82dfOA-A", "index": "onepiece" , "status": 400`
打开	POST localhost:9200/onepiece/_open	`"acknowledged": true, "shards_acknowledged": true`

映射的使用

操作	URL	数据	结果
新增	post localhost:9200/onepiece/_mapping	`"properties": "name": "type": "keyword" , "role": "type": "text" , "skill": "type": "text"`	`"acknowledged": true`
获取	get localhost:9200/_mapping
修改	put localhost:9200/onepiece/_mapping

文档的使用

新增文档

操作	URL	数据	结果
新增	PUT localhost:9200/onepiece/_doc/1 必须指定id	`"name":"路飞", "role":"船长", "skill":"橡胶巨人手枪"`	`"_index": "onepiece", "_type": "_doc", "_id": "1", "_version": 1, "result": "created", "_shards": "total": 2, "successful": 1, "failed": 0 , "_seq_no": 0, "_primary_term": 2`
新增2	POST localhost:9200/nba/_doc 不指定id	`"name":"山治", "role":"厨师", "skill":"旋转踢"`	`"_index": "onepiece", "_type": "_doc", "_id": "EFsY5IUBhzEzAQrS8ccK", "_version": 1, "result": "created", "_shards": "total": 2, "successful": 1, "failed": 0 , "_seq_no": 1, "_primary_term": 2`
查看	GET localhost:9200/onepiece/_doc/1		`"_index": "onepiece", "_type": "_doc", "_id": "1", "_version": 1, "_seq_no": 0, "_primary_term": 2, "found": true, "_source": "name": "路飞", "role": "船长", "skill": "橡胶巨人手枪"`
查看多个	POST localhost:9200/_mget	`"docs" : [ "_index" : "user", "_type" : "_doc", "_id" : "1" , "_index" : "onepiece", "_type" : "_doc", "_id" : "1" ]`	`"docs": [ "_index": "user", "_type": "_doc", "_id": "1", "found": false , "_index": "onepiece", "_type": "_doc", "_id": "1", "_version": 2, "_seq_no": 2, "_primary_term": 2, "found": true, "_source": "name": "路飞", "role": "船长", "skill": "橡胶巨人手枪", "age": 19 ]`
查看多个指定索引	POST localhost:9200/onepiece/_mget	`"docs" : [ "_type" : "_doc", "_id" : "1" , "_type" : "_doc", "_id" : "2" ]`	`"docs": [ "_index": "onepiece", "_type": "_doc", "_id": "1", "_version": 2, "_seq_no": 2, "_primary_term": 2, "found": true, "_source": "name": "路飞", "role": "船长", "skill": "橡胶巨人手枪", "age": 19 , "_index": "onepiece", "_type": "_doc", "_id": "2", "found": false ]`
修改	POST localhost:9200/onepiece/_doc/1	`"name":"路飞", "role":"船长", "skill":"橡胶巨人手枪", "age":19`	`"_index": "onepiece", "_type": "_doc", "_id": "1", "_version": 2, "result": "updated", "_shards": "total": 2, "successful": 1, "failed": 0 , "_seq_no": 2, "_primary_term": 2`
删除	DELETE localhost:9200/onepiece/_doc/1

搜索的简单使用

term(词条)查询和full text(全⽂)查询

词条查询：词条查询不会分析查询条件，只有当词条和查询字符串完全匹配时，才匹配搜索。

全⽂查询：ElasticSearch引擎会先分析查询字符串，将其拆分成多个分词，只要已分析的字段中包含词条的任意⼀个，或全部包含，就匹配查询条件，返回该⽂档；如果不包含任意⼀个分词，表示没有任何⽂档匹配查询条件

单条term

关键字查询，精确查询，mapping中type为keyword