Java操作Elasticsearch6实现count统计distinct去重

Posted 好好生活_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Java操作Elasticsearch6实现count统计distinct去重相关的知识,希望对你有一定的参考价值。

引言

很久没有更新Elasticsearch系列文章,一方面是之前学会的条件查询足以满足项目需求,另一方面是前段时间一直很忙,几个项目的需求交叉进行,没什么时间学习新的东西。
本篇博客将更新count、distinct、count(distinct)这几个新学到的Elasticsearch关于查询的方法。

1. Count计算

在项目中,count也算是一个比较常用的方法。之前项目中有需要用到,都是基于查询所有的方法,直接取total的值返回。最近发现,其实Elasticsearch单独封装了一个CountRequest类来获取数量。代码如下:
/**
 * 查询指定索引文档总数(可增加查询条件,如果为空,则查询所有)
 */
@Test
public void testCount() 
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    CountRequest countRequest = new CountRequest();
    //构造查询条件
//        searchSourceBuilder.query(QueryBuilders.termQuery("fieldName", 1));
    countRequest.indices("indexName").source(searchSourceBuilder);
    CountResponse countResponse = null;
    try 
        countResponse = restHighLevelClient.count(countRequest, RequestOptions.DEFAULT);
        return countResponse.getCount();
     catch (IOException e) 
        log.error("[EsClientConfig.countDocumentSize][error][fail to count document size,param is ]", countRequest);
    
    return 0;
    log.info("[document size is , indexName is ]", size, indexName);

相关类:CountRequest、CountResponse

2. distinct查询

distinct同样属于项目中使用较广泛的查询方法,对应mysql中的sql语句如下:
select distinct(field_name) from table_name;
下面就来看下Elasticsearch6中,我们该如何实现,代码如下:
/**
 * 查询指定索引下,按某个字段distinct的结果
 * 需要注意的:
 * 1. 如果字段是keyword类型,需要在字段后加上keyword,形如:subject.keyword
 * 2. 不指定size的情况下,默认只返回10条
 */
@Test
public void testDistinct() 
    SearchRequest searchRequest = new SearchRequest();
    searchRequest.indices("indexName").types("indexType");
    BoolQueryBuilder boolQueryBuilder = new BoolQueryBuilder();
    //构造条件
//        boolQueryBuilder
//                .filter(QueryBuilders.termQuery("fieldName", "fieldValue"));
	//指定distinct字段
    CollapseBuilder collapseBuilder = new CollapseBuilder("fieldName.keyword");
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(boolQueryBuilder).collapse(collapseBuilder);
    //执行查询
    searchRequest.source(searchSourceBuilder);
    String key = "fieldName.keyword";
    List<Object> resultList = new ArrayList<>();
    SearchResponse response;
    try 
        response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
        SearchHits hits = response.getHits();
        if (hits.getTotalHits() > 0) 
            SearchHit[] searchHitsArr = hits.getHits();
            for (int i = 0; i < searchHitsArr.length; i++) 
            //在Fields属性中可以获取对应字段的值,这里我增加了一个参数key对应distinct的字段名
            	resultList.add(searchHitsArr[i].getFields().get(key).getValue());
            
        
     catch (IOException e) 
        log.error("[EsClientConfig.searchDocumentDistinct] [error] [fail to query, param is ,key is ]", JSON.toJSON(searchRequest), key, e);
        return resultList;
    
    return resultList;

相关类:CollapseBuilder、SearchResponse

3. Count(distinct)查询

先拿项目中的场景举个例子,学生可以报名参加多门学科的多场公开课,现在想要知道某个学生参加了几门学科的公开课,对应mysql中的sql语句如下:
select count(distinct(field_name)) from table_name where student_id = '**';
对应Elasticsearch中的查询,代码如下:

/**
 * 计算指定索引,按某个字段去重后的count结果
 */
@Test
public void testCountDistinct() 
    SearchRequest searchRequest = new SearchRequest();
    searchRequest.indices("indexName").types("indexType");
    String key = "subjectId";
    BoolQueryBuilder boolQueryBuilder = new BoolQueryBuilder();
    //查询条件,查询指定学员
    boolQueryBuilder
            .filter(QueryBuilders.termQuery("uuid", "**"));
    //指定count(distinct)字段名,cardinality为指定字段的别名,field为指定字段
    CardinalityAggregationBuilder aggregationBuilder = AggregationBuilders.cardinality(key).field("subjectId.keyword");
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(boolQueryBuilder).aggregation(aggregationBuilder);
    //执行查询
    searchRequest.source(searchSourceBuilder);
    int count = 0;
    SearchResponse response;
    try 
        response = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);
        ParsedCardinality result = response.getAggregations().get(key);
        log.info("result is ", result.getValue());
     catch (IOException e) 
        log.error("[EsClientConfig.countDocumentDistinct] [error] [fail to query, param is ]", JSON.toJSON(searchRequest), e);
        return count;
    
    return count;

相关类:CardinalityAggregationBuilder、ParsedCardinality

总结

以上方法是基于已经做好SpringBoot与Elasticsearch整合的基础上,如果需要,可以查看Elasticsearch系列文章
另外,以上代码是基于Elasticsearch6.8版本,其他版本在使用的时候可能会有所差别,如果在使用中有遇到其他问题,可以私信交流。

以上是关于Java操作Elasticsearch6实现count统计distinct去重的主要内容,如果未能解决你的问题,请参考以下文章

[Elasticsearch] Java操作Elasticsearch6实现group by分组查询

Java操作Elasticsearch6实现单个字段多值匹配

Java操作Elasticsearch6实现count统计distinct去重

在centos7中安装elasticsearch6.3

elasticsearch6 学习之批量操作

Elasticsearch6.0 重大变化之Java API