全文检索ElasticSearch

Posted q_1913284695

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了全文检索ElasticSearch相关的知识,希望对你有一定的参考价值。

1.原理

底层基于Lucene,面向文档的,并且是使用json作为文档的序列化格式的。

2.安装

这里采用docker安装的方式

  1. 搜索elasticSearch镜像
docker search elasticSearch

  1. 下载安装镜像
docker pull elasticsearch
  1. 启动

因为这个启动要占2G的内存,而我的 服务器没有2g内存,所以设置 -e ES_JAVA_OPTS="-Xms256m -Xmx256m"

docker run -e ES_JAVA_OPTS="-Xms256m -Xmx256m" -d -p 9200:9200 -p 9300:9300 --name ES01 6f8bf0ce76ea 

  1. 验证

在浏览器直接输入服务器IP地址:9200

3.相关概念

4.快速入门

官方中文文档:https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html

4.1增(插入数据 )

  • 每个员工索引一个文档,文档包含该员工的所有信息。
  • 每个文档都将是 employee 类型
  • 该类型位于 索引 megacorp 内。
  • 该索引保存在我们的 Elasticsearch 集群中。

以下插入了三个员工

PUT /megacorp/employee/1

    "first_name" : "John",
    "last_name" :  "Smith",
    "age" :        25,
    "about" :      "I love to go rock climbing",
    "interests": [ "sports", "music" ]

PUT /megacorp/employee/2

    "first_name" :  "Jane",
    "last_name" :   "Smith",
    "age" :         32,
    "about" :       "I like to collect rock albums",
    "interests":  [ "music" ]


PUT /megacorp/employee/3

    "first_name" :  "Douglas",
    "last_name" :   "Fir",
    "age" :         35,
    "about":        "I like to build cabinets",
    "interests":  [ "forestry" ]

4.2删

DELETE 命令来删除文档

4.3改

如果想更新已存在的文档,只需再次 PUT

4.4查

4.4.1查某个id的详情

GET /megacorp/employee/1

返回结果包含了文档的一些元数据,以及 _source 属性,内容是 John Smith 雇员的原始 JSON 文档。

4.4.2查所有的

GET /megacorp/employee/_search

4.4.3条件查询

搜索姓氏为 Smith 的雇员

  1. 查询字符串的方式
GET /megacorp/employee/_search?q=last_name:Smith
  1. 查询表达式的方式
GET /megacorp/employee/_search

    "query" : 
        "match" : 
            "last_name" : "Smith"
        
    

4.5检查是否存在

使用 HEAD 指令来检查文档是否存在

4.6复杂查询

同样搜索姓氏为 Smith 的员工,但这次我们只需要年龄大于 30 的。查询需要稍作调整,使用过滤器 _filter_ ,它支持高效地执行一个结构化查询。
GET /megacorp/employee/_search

    "query" : 
        "bool": 
            "must": 
                "match" : 
                    "last_name" : "smith" 
                
            ,
            "filter": 
                "range" : 
                    "age" :  "gt" : 30  
                
            
        
    

4.7全文检索

搜索下所有喜欢攀岩(rock climbing)的员工:

GET /megacorp/employee/_search

    "query" : 
        "match" : 
            "about" : "rock climbing"
        
    

结果如下:

 "hits": 
        "total": 2,
        "max_score": 0.53484553,
        "hits": [
            
                "_index": "megacorp",
                "_type": "employee",
                "_id": "1",
                "_score": 0.53484553,
                "_source": 
                    "first_name": "John",
                    "last_name": "Smith",
                    "age": 25,
                    "about": "I love to go rock climbing",
                    "interests": [
                        "sports",
                        "music"
                    ]
                
            ,
            
                "_index": "megacorp",
                "_type": "employee",
                "_id": "2",
                "_score": 0.26742277,
                "_source": 
                    "first_name": "Jane",
                    "last_name": "Smith",
                    "age": 32,
                    "about": "I like to collect rock albums",
                    "interests": [
                        "music"
                    ]
                
            
        ]
    

备注:_score就是相关性得分
Elasticsearch 默认按照相关性得分排序,即每个文档跟查询的匹配程度。第一个最高得分的结果很明显:John Smith 的 about 属性清楚地写着 “rock climbing” 。
但为什么 Jane Smith 也作为结果返回了呢?原因是她的 about 属性里提到了 “rock” 。因为只有 “rock” 而没有 “climbing” ,所以她的相关性得分低于 John 的。

4.8短语搜索

找出一个属性中的独立单词是没有问题的,但有时候想要精确匹配一系列单词或者_短语_ 。 比如, 我们想执行这样一个查询,仅匹配同时包含 “rock” “climbing” ,并且 二者以短语 “rock climbing” 的形式紧挨着的雇员记录。
为此对 match 查询稍作调整,使用一个叫做 match_phrase 的查询:

GET /megacorp/employee/_search

    "query" : 
        "match_phrase" : 
            "about" : "rock climbing"
        
    

4.9高亮搜索

许多应用都倾向于在每个搜索结果中 高亮 部分文本片段,以便让用户知道为何该文档符合查询条件。在 Elasticsearch 中检索出高亮片段也很容易。
再次执行前面的查询,并增加一个新的 highlight 参数:

GET /megacorp/employee/_search

    "query" : 
        "match_phrase" : 
            "about" : "rock climbing"
        
    ,
    "highlight": 
        "fields" : 
            "about" : 
        
    

当执行该查询时,返回结果与之前一样,与此同时结果中还多了一个叫做 highlight 的部分。这个部分包含了 about 属性匹配的文本片段,并以 html 标签 封装:

 "hits": 
        "total": 1,
        "max_score": 0.53484553,
        "hits": [
            
                "_index": "megacorp",
                "_type": "employee",
                "_id": "1",
                "_score": 0.53484553,
                "_source": 
                    "first_name": "John",
                    "last_name": "Smith",
                    "age": 25,
                    "about": "I love to go rock climbing",
                    "interests": [
                        "sports",
                        "music"
                    ]
                ,
                "highlight": 
                    "about": [
                        "I love to go <em>rock</em> <em>climbing</em>"
                    ]
                
            
        ]
    

以上是关于全文检索ElasticSearch的主要内容,如果未能解决你的问题,请参考以下文章

数据库-Elasticsearch进阶学习笔记(分片映射分词器即时搜索全文搜索等)

Elasticsearch搜索

吃透 | Elasticsearch filter和query的不同

吃透 | Elasticsearch filter和query的不同

基于Elasticsearch的自定义评分算法扩展 (转)

基于Elasticsearch的自定义评分算法扩展 (转)