elasticsearch——部分聚合结果不准确

Posted 2023-04-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了elasticsearch——部分聚合结果不准确相关的知识，希望对你有一定的参考价值。

参考技术A ES基于分布式，每一个搜索请求都是分发到所有的分片上单独处理，最后汇总结果。聚合也是这样操作。但是在这种逻辑下，会导致某些聚合的结果不准确，即实现group逻辑的terms桶

这里实现了一个terms聚合，以color为依据进行分组统计。结果为每种color的个数。下面是返回的结果

在返回结果的aggregations中，有三个值：doc_count_error_upper_bound、sum_other_doc_count和popular_colors。这三个值表示了ES对这次聚合的评估和返回的聚合结果。

由此分析这一次的聚合，虽然返回了top3，但是可能存在另一个第二名，而且doc_count只是一个相对值。
本质上这种误差是由于分布式环境中的数据隔离产生的，尤其是当获取topK数据时，节点内的topK准确不保证整体topK准确。而且无论元素还是元素对应的doc_count，都不是准确的。
所以如果想要ES获取准确的聚合结果，只有max、min、avg等聚合可以做到，而terms API本身不保证准确，只有通过一些额外的方法来确保或者提高准确性：

Elasticsearch聚合学习之四：结果排序

欢迎访问我的GitHub

本篇概览

本文是《Elasticsearch聚合学习》系列的第四篇，在前面的实战中，聚合的结果以桶(bucket)为单位，放在JSON数组中返回，这些数据是没有排序的，今天来学习如何给这些数据进行排序；

系列文章列表

环境信息

以下是本次实战的环境信息，请确保您的Elasticsearch可以正常运行：

操作系统：Ubuntu 18.04.2 LTS
JDK：1.8.0_191
Elasticsearch：6.7.1
Kibana：6.7.1

实战用的数据依然是一些汽车销售的记录，在第一章有详细的导入步骤，请参考操作，导入后您的es中的数据如下图：

接下来一起实战聚合排序吧；

默认排序

之前文章中的聚合查询，我们都没有做排序设置，此时es会用每个桶的doc_count字段做降序，下图是个terms桶聚合的示例，可见返回了三个bucket对象，是按照doc_count字段降序排列的：

内置排序

除了自定义排序，es自身也内置了两种排序参数，可以直接拿来使用：
_count：这个参数对应的就是doc_count，以下请求的排序效果和默认的排序效果是一致的：

GET /cars/transactions/_search

  "size":0,
  "aggs":
   "popular_colors":
     "terms": 
       "field": "color",
       "order":              ---表示要对聚合结果做排序
         "_count": "desc"     ---排序字段是doc_count，顺序是降序

_key：在区间聚合的时候(histogram或者date_histogram)，可以根据桶的key做排序：

GET /cars/transactions/_search

  "size": 0,
  "aggs": 
    "price": 
      "histogram":            ---区间聚合
        "field": "price",      ---取price字段的值
        "interval": 20000,     ---每个区间的大小是20000
        "order":              ---表示要对聚合结果做排序
          "_key": "desc"       ---排序字段是桶的key值，这里是每个区间的起始值，顺序是降序

返回结果如下，已经按照key的大小从大到小排序：

  ......
  "aggregations" : 
    "price" : 
      "buckets" : [
        
          "key" : 80000.0,
          "doc_count" : 1
        ,
        
          "key" : 60000.0,
          "doc_count" : 0
        ,
        
          "key" : 40000.0,
          "doc_count" : 0
        ,
        
          "key" : 20000.0,
          "doc_count" : 4
        ,
        
          "key" : 0.0,
          "doc_count" : 3
        
      ]

《Elasticsearch 权威指南》里指出：_key只在 histogram 和 date_histogram 内使用，原文如下图红框所示：

但是在实际操作中发现，6.7.1版本中，除了histogram 和 date_histogram，terms桶也可以用**_key**排序，如下图，是按照key的字母降序：
把desc改为asc之后返回如下图，变成了按照key的首字母升序排序：
另外《Elasticsearch 权威指南》中还提到一种内置排序类型**_term**，但是《Elasticsearch官方文档》中宣布该类型在6.0之后已经废弃，如下：

也许是"手贱"的缘故，我还是用_term试了下，可以返回结果，但是会建议用_key替代_term，如下图：

按照metrics排序(metrics结果只有一个值)

常见的metrics有累加和(sum)、最大值(max)、最小值(min)、平均值(avg)，这些metrics的特点是处理结果只有一个值，我们可以按照这个结果来排序，例如计算每个汽车品牌的销售额，再按照销售额排序：

GET /cars/transactions/_search

  "size": 0,
  "aggs": 
    "sales_rank": 
      "terms":                ---桶类型是terms
        "field": "make",       ---按照make字段聚合
        "order":              ---要求排序
          "sales": "desc"      ---排序字段是sales
        
      ,
      "aggs": 
        "sales":             ---metrics处理后的结果保存在名为sales的字段中，排序已经指定了该字段
          "sum":             ---桶内的metrics处理，类型是累加
            "field": "price"  ---将price字段的值累加

下面是聚合结果，可见已按照每个品牌的销售额大小做了降序的排序：

......
  "aggregations" :                           ---聚合结果
    "sales_rank" :                           ---桶名称
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [                           ---这个JSON数组内是按照品牌聚合而成的所有桶
        
          "key" : "bmw",                      ---品牌为bmw的桶
          "doc_count" : 1,                    ---文档数量为1
          "sales" :                          ---metrics处理结果
            "value" : 80000.0                 ---品牌为bmw的汽车销售总额是80000
          
        ,
        
          "key" : "ford",
          "doc_count" : 2,
          "sales" : 
            "value" : 55000.0
          
        ,
        
          "key" : "honda",
          "doc_count" : 3,
          "sales" : 
            "value" : 50000.0
          
        ,
        
          "key" : "toyota",
          "doc_count" : 2,
          "sales" : 
            "value" : 27000.0
          
        
      ]

按照metrics排序(metrics结果有多个值)

和sum、max这些只有一个结果的metrics不同，extended_stats的结果包含了数量、最大值、最小值、平均值、累加和等多种处理，此时必须要指定用其中的哪一项（否则会返回错误：Invalid aggregation order path [xxxx]. When ordering on a multi-value metrics aggregation a metric name must be specified）:

GET /cars/transactions/_search

  "size": 0,
  "aggs": 
    "sales_rank": 
      "terms":                  ---桶类型是terms
        "field": "make",         ---按照make字段聚合
        "order":                ---要求排序
          "stat.avg": "asc"      ---排序字段是metrics结果的一个子项(平均值)，升序
        
      ,
      "aggs": 
        "stat":                 ---metrics处理后的结果保存在名为stat的字段中，排序已经指定了该字段的agv子项(平均值)
          "extended_stats":     ---桶内的metrics处理，类型是计算数量、最大值、最小值、平均值等多个指标项
            "field": "price"     ---将price字段的值拿来做metrics处理

返回结果如下，可见已经按照metrics结果的avg子项做了升序排序：

......
"aggregations" : 
    "sales_rank" : 
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        
          "key" : "toyota",
          "doc_count" : 2,
          "stat" : 
            "count" : 2,
            "min" : 12000.0,
            "max" : 15000.0,
            "avg" : 13500.0,               ---排序字段
            "sum" : 27000.0,
            "sum_of_squares" : 3.69E8,
            "variance" : 2250000.0,
            "std_deviation" : 1500.0,
            "std_deviation_bounds" : 
              "upper" : 16500.0,
              "lower" : 10500.0
            
          
        ,
        
          "key" : "honda",
          "doc_count" : 3,
          "stat" : 
            "count" : 3,
            "min" : 10000.0,
            "max" : 20000.0,
            "avg" : 16666.666666666668,    ---排序字段
            "sum" : 50000.0,
            "sum_of_squares" : 9.0E8,
            "variance" : 2.222222222222221E7,
            "std_deviation" : 4714.045207910315,
            "std_deviation_bounds" : 
              "upper" : 26094.757082487296,
              "lower" : 7238.5762508460375
            
          
        ,
        ......

嵌套桶排序

在聚合查询中，经常对聚合的数据再次做聚合处理，例如统计每个汽车品牌下的每种颜色汽车的销售额，这时候DSL中就有了多层aggs对象的嵌套，这就是嵌套桶（此名称来自《Elasticsearch 权威指南》，如下图所示：

嵌套桶的排序情况略为复杂，详情请参考《Elasticsearch聚合的嵌套桶如何排序》；
至此，聚合返回结果排序的实战已经完成了，后面的章节会深入学习es的聚合有关的关键知识点；

欢迎关注51CTO博客：程序员欣宸

以上是关于elasticsearch——部分聚合结果不准确的主要内容，如果未能解决你的问题，请参考以下文章

elasticsearch aggs 嵌套查询多个select 统计/聚合部分查询结果

聚合结果的 Elasticsearch 过滤器（用于搜索和聚合）

Elasticsearch聚合后分页深入详解

Elasticsearch 聚合功能

Elasticsearch聚合学习之四：结果排序

Elasticsearch聚合查询