Elasticsearch——search搜索入门

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch——search搜索入门相关的知识,希望对你有一定的参考价值。

参考技术A

Search执行的时候分为两个运行步骤:

相关性算分在shard与shard之间是相互独立的,也就意味着同一个Term的IDF等值在不同shard上是不同的,文档的相关性算分和它所处的shard相关,在文档数量不多时,会导致相关性算分严重不准的情况发生。

解决思路有两个:

es默认会采用相关性算分排序,用户可以通过设定sorting参数来自行设定排序规则

Fielddata VS DocValues

Fielddata默认是关闭的,可以通过如下api开启:

DocValues默认是启用的,可以在创建索引的时候关闭,如果后面要开启DocValues,需要做reindex操作。

可以通过该字段获取fielddata获取DocValues中储存的内容。

无条件搜索所有

解释

与http请求传参类似

默认情况下,es的timeout机制是关闭的。比如,如果你的搜索特别慢,每个shard都要花好几分钟才能查询出来所有的数据,那么你的搜索请求也会等待好几分钟才会返回。

我们有些应用系统对时间是非常敏感的,比如说电商网站,你不能让用户等10分钟,才能等到一次搜索请求的结果。

timeout机制 :指定每个shard只能在timeout时间范围内,将搜索到的部分数据(也可能是全部数据),直接返回给客户端,而不是等到所有的数据全部搜索出来以后再返回。确保一次搜索请求可以在用户指定的timeout时长内完成,为一些时间敏感的搜索应用提供良好的支持。

全局设置:配置文件中设置 search.default_search_timeout:100ms 。该设置不常用。

如何一次性搜索多个index和多个type下的数据

应用场景:生产环境log索引可以按照日期分开。

es提供了3种方式来解决分页与遍历的问题:

最常用的分页方案:

如果每页展示 5 条结果,可以用下面方式请求得到 1 到 3 页的结果:

深度分页是一个经典问题:在数据分片存储的情况下,如何获取前1000条数据?

除了会遇到效率上的问题,还有一个无法解决的问题是es目前支持最大的skip值是max_result_window默认为10000,也就是说当from+size > max_result_window时,es将返回错误。

解决方案:
问题描述:比如当客户线上的es数据出现问题,当分页到几百页的时候,es无法返回数据,此时为了恢复正常使用,我们可以采用紧急规避的方式,就是将max_result_window的值调至50000。

对于上面这种解决方案只是暂时解决问题,当es的使用越来越多时,数据量越来越大,深度分页的场景越来越复杂时,可以使用另一种分页方式scroll。

什么是deep paging

遍历文档集的api,以快照的方式来避免深度分页的问题。

直接可以搜索所有的field,任意一个field包含指定的关键字就可以搜索出来。我们在进行中搜索的时候,难道是对document中的每一个field都进行一次搜索吗?不是的。

es中all元数据。建立索引的时候,插入一条document,es会将所有的field值经行全量分词,把这些分词,放到all field中。在搜索的时候,没有指定field,就在_all搜索。

举例

_all : jack,123@qq.com ,beijing

参考:
https://blog.csdn.net/fy_java1995/article/details/106674455

https://www.cnblogs.com/qinjf/p/8519444.html

以上是关于Elasticsearch——search搜索入门的主要内容,如果未能解决你的问题,请参考以下文章

SharePoint 中search的原理!!!!

四.全文检索ElasticSearch经典入门-ElasticSearch DSL查询

[新星计划]一文快速了解Elastic Search 开源搜索引擎(技术选型+启动命令)

elasticsearch入门(下载安装)

elasticsearch入门(下载安装)

Elasticsearch: 使用URI Search