ElasticSearch操作之游标查询Scroll Search

Posted nysd

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ElasticSearch操作之游标查询Scroll Search相关的知识,希望对你有一定的参考价值。

一.  什么是游标查询(Scroll)

  顾名思义,相当于用一把游标标记查询的位置.

 

二.  为什么要使用游标查询

  在默认情况下,ES查询每次返回的数量最多只有1W条,且只能是前1W条.

  这意味着,在不修改配置的情况下,想通过分页的方式(如下)拿到1W条之后的数据是做不到的

GET /索引/类型/_search
{
  "size": 10000, 
  "from": 5000, 
  "query": {
    ...   
  }, 
  "aggs": {
    ...  
  }
}

所以自然就有了游标查询.

 

三.  如何使用游标查询

DSL的用法:

GET 索引/类型/_search?scroll=1m
{
  "size": 10000,
  "query": {
    "match_all": {}
  }
}

1m表示:过期时间1分钟

 

查询结果的第一行会有:

  "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBAAAAAAABO-dFmRFSU9NM1VNU2JxNG9UUlNnSmpXMVEAAAAAAL7J_hYxT0dJOVJVMVFxU2I0N2xCR2IyVzJnAAAAAAC-    SmQWWk1aN0sxUmRSQmFNS3EwVFh0R0luUQAAAAAAvkplFlpNWjdLMVJkUkJhTUtxMFRYdEdJblE=",

这个_scroll_id就相当于书签,之后的查询带着这个书签,就能根据size不断拿到之后的数据,但是前提是在过期时间之内

 

之后的查询DSL:

GET _search/scroll
{
  "scroll":"1m",
  "scroll_id":"DnF1ZXJ5VGhlbkZldGNoBAAAAAAABPP1FmRFSU9NM1VNU2JxNG9UUlNnSmpXMVEAAAAAAL7OTxYxT0dJOVJVMVFxU2I0N2xCR2IyVzJnAAAAAAC-j70WVVlOZkxQRzJRLXlMRlVMbEQtalBfUQAAAAAAyWm-Fk9HdGx1b3VsUXRLZHV4c1E1OExja0E="
}

将获取的scroll_id作为条件继续查询即可,这里不需要再指定索引和类型,因为scroll_id的唯一性.

在过期时间内,之后的查询的scroll_id是不变的.

 

四.  基于java代码:

     RestClient lowClient = RestClient.builder(new HttpHost("主机",端口))
                .setMaxRetryTimeoutMillis(300000).build();
        RestHighLevelClient client = new RestHighLevelClient(lowClient);
        SearchRequest request = new SearchRequest("索引").types("类型");
     //这里一次查1W条 SearchSourceBuilder sourceBuilder
= new SearchSourceBuilder().size(10000); request.source(builder).searchType(SearchType.DEFAULT); //这句代码就是设置游标查询和过期时间
     request.scroll(TimeValue.timeValueMinutes(
5)); SearchResponse response = client.search(request);      // search     SearchResponse response = client.search(request);     //定义游标
    String scrollId
= null;     if (response != null && response.getHits().getHits().length > 0) {    for (SearchHit hit : response.getHits().getHits()) {   //TODO    }
     //拿到游标    scrollId
= response.getScrollId();     }     //一直查询,直到没有游标返回(查询到底了)     while (true){    if(scrollId == null){   break;    }   SearchScrollRequest searchScrollRequest = new SearchScrollRequest(scrollId).scroll(TimeValue.timeValueMinutes(5));;   response = client.searchScroll(searchScrollRequest);   if (response != null && response.getHits().getHits().length > 0) {   for (SearchHit hit : response.getHits().getHits()) { //TODO   }   scrollId = response.getScrollId();   }else {   break;   }     }

到这里,游标查询的基本操作就OK了.有一点需要注意:

  游标的方式,相当于mysql中生成快照的方式,所以如果在游标查询期间有增删改操作,是获取不到最新的数据的.

以上是关于ElasticSearch操作之游标查询Scroll Search的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch系列---搜索执行过程及scroll游标查询

elasticsearch获取大批量数据时 深度分页(from&size) VS scroll游标查询

SQL Server基础之游标

mysql之游标

ElasticSearch Scroll 游标搜索

elasticsearch基本操作之--使用QueryBuilders进行查询