ElasticSearch_04_ES的嵌套聚合，下钻分析，聚合分析

Posted 2022-10-05 毛奇志

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ElasticSearch_04_ES的嵌套聚合，下钻分析，聚合分析相关的知识，希望对你有一定的参考价值。

系列文章目录

文章目录

系列文章目录
前言
一、两个核心概念：bucket和metric
- 1.1 数据预制
- 1.2 按照tags字段分组
二、按搜索结果聚合
三、collect_mode
四、histogram 和 date histogram 间隔范围分组
- 4.1 histogram 范围分组
- 4.2 date histogram
五、global全局桶
总结

前言

本文所有的es操作语句：https://www.syjshare.com/res/PJ9F6DSN

一、两个核心概念：bucket和metric

按照某个字段进行bucket划分，那个字段的值相同的那些数据，就会被划分到一个bucket中
有一些mysql的sql知识的话，聚合，首先第一步就是分组，对每个组内的数据进行聚合分析，分组，就是我们的bucket

metric:对一个数据分组执行的统计
当我们有了一堆bucket之后，就可以对每个bucket中的数据进行聚合分词了，比如说计算一个bucket内所有数据的数量，或者计算一个bucket内所有数据的平均值，最大值，最小值

bucket：group by user_id --> 那些user_id相同的数据，就会被划分到一个bucket中
metric，就是对一个bucket执行的某种聚合分析的操作，比如说求平均值，求最大值，求最小值

开始，计算一个数量计算每个tag下的商品数量。

1.1 数据预制

DELETE /ecommerce

PUT /ecommerce/product/1

    "name" : "gaolujie yagao",
    "desc" :  "gaoxiao meibai",
    "price" :  30,
    "producer" :      "gaolujie producer",
    "tags": [ "meibai", "fangzhu" ]

PUT /ecommerce/product/2

    "name" : "jiajieshi yagao",
    "desc" :  "youxiao fangzhu",
    "price" :  25,
    "producer" :      "jiajieshi producer",
    "tags": [ "fangzhu" ]

PUT /ecommerce/product/3

    "name" : "zhonghua yagao",
    "desc" :  "caoben zhiwu",
    "price" :  40,
    "producer" :      "zhonghua producer",
    "tags": [ "qingxin" ]



GET _search

数据准备，开始新的一篇

1.2 按照tags字段分组

PUT /ecommerce/_mapping/product

  "properties": 
    "tags": 
      "type": "text",
      "fielddata": true
    
  


GET /ecommerce/product/_search

  "size" : 0,  
  "aggs": 
    "group_by_tags": 
      "terms":  "field": "tags"

请求体中各个字段的含义
size：只获取聚合结果，而不要执行聚合的原始数据
aggs：固定语法，要对一份数据执行分组聚合操作
gourp_by_tags：就是对每个aggs，都要起一个名字，这个名字是随机的，你随便取什么都ok
terms：根据字段的值进行分组
field：根据指定的字段的值进行分组将文本

返回体中各个字段的含义
hits.hits：我们指定了size是0，所以hits.hits就是空的，否则会把执行聚合的那些原始数据给你返回回来
aggregations：聚合结果
gourp_by_tags：我们指定的某个聚合的名称
buckets：根据我们指定的field划分出的buckets
key：每个bucket对应的那个值
doc_count：这个bucket分组内，有多少个数据
每种tag对应的bucket中的数据的
默认的排序规则：按照doc_count降序排序

二、按搜索结果聚合

2.1 对名称中包含yagao的商品，计算每个tag下的商品数量

需求：对名称中包含yagao的商品，计算每个tag下的商品数量

GET /ecommerce/product/_search

  "size": 0,
  "query": 
    "match": 
      "name": "yagao"
    
  ,
  "aggs": 
    "all_tags": 
      "terms": 
        "field": "tags"

2.2 对名称中包含yagao的商品，计算每个tag下的商品数量，返回需要的字段

GET /ecommerce/product/_search

    "size": 0,
    "aggs" : 
        "group_by_tags" : 
            "terms" :  "field" : "tags" ,
            "aggs" : 
                "top_tags": 
                  "top_hits":  
                    "_source": 
                      "include": "name"
                    , 
                    "size": 1

2.3 计算每个tag下的商品的平均价格/最小价格/最大价格/总价

计算每个tag下的商品的平均价格/最小价格/最大价格/总价

count：bucket，terms，自动就会有一个doc_count，就相当于是count
avg：avg aggs，求平均值
max：求一个bucket内，指定field值最大的那个数据
min：求一个bucket内，指定field值最小的那个数据
sum：求一个bucket内，指定field值的总和先分组，再算每组的平均值

GET /ecommerce/product/_search

    "size": 0,
    "aggs" : 
        "group_by_tags" : 
            "terms" :  "field" : "tags" ,
            "aggs" : 
                "avg_price":  "avg":  "field": "price"  ,
                "min_price" :  "min":  "field": "price" , 
                "max_price" :  "max":  "field": "price" ,
                "sum_price" :  "sum":  "field": "price"

三、collect_mode

对于子聚合的计算，有两种方式：

方式1：depth_first 直接进行子聚合的计算【深度优先】
方式2：breadth_first 先计算出当前聚合的结果，针对这个结果在对子聚合进行计算。【广度优先】

3.1 子聚合的计算两种方式

例子：计算每个tag下的商品的平均价格，并且按照平均价格降序排序

“order”: “avg_price”: “desc”

1、depth_first 直接进行子聚合的计算

GET /ecommerce/product/_search

    "size": 0,
    "aggs" : 
        "all_tags" : 
            "terms" :  "field" : "tags", "collect_mode" : "depth_first", "order":  "avg_price": "desc"  ,
            "aggs" : 
                "avg_price" : 
                    "avg" :  "field" : "price"

2、breadth_first 先计算出当前聚合的结果，针对这个结果在对子聚合进行计算

GET /ecommerce/product/_search

    "size": 0,
    "aggs" : 
        "all_tags" : 
            "terms" :  "field" : "tags", "collect_mode" : "breadth_first", "order":  "avg_price": "desc"  ,
            "aggs" : 
                "avg_price" : 
                    "avg" :  "field" : "price"

3.2 tags分组前面先范围分组

GET /ecommerce/product/_search

  "size": 0,
  "aggs": 
    "group_by_price": 
      "range": 
        "field": "price",
        "ranges": [
          
            "from": 0,
            "to": 20
          ,
          
            "from": 20,
            "to": 40
          ,
          
            "from": 40,
            "to": 50
          
        ]
      ,
      "aggs": 
        "group_by_tags": 
          "terms": 
            "field": "tags"
          ,
          "aggs": 
            "average_price": 
              "avg": 
                "field": "price"

四、histogram 和 date histogram 间隔范围分组

4.1 histogram 范围分组

类似于terms，也是进行bucket分组操作，接收一个field，按照这个field的值的各个范围区间，进行bucket分组操作

interval：10，划分范围，0 ~ 10，10 ~ 20，20 ~ 30

GET /ecommerce/product/_search

   "size" : 0,
   "aggs":
      "price":
         "histogram": 
            "field": "price",
            "interval": 10
         ,
         "aggs":
            "revenue": 
               "sum":  
                 "field" : "price"

这里的 revenue 仅仅是聚合名称，没有实际意义

4.2 date histogram

date histogram 日期分组，按照我们指定的某个date类型的日期field，以及日期interval，按照一定的日期间隔，去划分bucket
date interval = 1m，
2017-01-01~2017-01-31，就是一个bucket
2017-02-01~2017-02-28，就是一个bucket
然后会去扫描每个数据的date field，判断date落在哪个bucket中，就将其放入那个bucket

min_doc_count：即使某个日期interval，2017-01-01~2017-01-31中，一条数据都没有，那么这个区间也是要返回的，不然默认是会过滤掉这个区间的
extended_bounds，min，max：划分bucket的时候，会限定在这个起始日期，和截止日期内

aggregation，scope，一个聚合操作，必须在query的搜索结果范围内执行出来两个结果，一个结果，是基于query搜索结果来聚合的; 一个结果，是对所有数据执行聚合的

修改三个document，如下：

PUT /ecommerce/product/1

    "name" : "gaolujie yagao",
    "desc" :  "gaoxiao meibai",
    "price" :  30,
    "producer" :      "gaolujie producer",
    "tags": [ "meibai", "fangzhu" ],
    "sold_date": "2016-01-15"

PUT /ecommerce/product/2

    "name" : "jiajieshi yagao",
    "desc" :  "youxiao fangzhu",
    "price" :  25,
    "producer" :      "jiajieshi producer",
    "tags": [ "fangzhu" ],
    "sold_date": "2016-02-15"

PUT /ecommerce/product/3

    "name" : "zhonghua yagao",
    "desc" :  "caoben zhiwu",
    "price" :  40,
    "producer" :      "zhonghua producer",
    "tags": [ "qingxin" ],
    "sold_date": "2016-02-20"
    



GET _search

GET /ecommerce/product/_search

   "size" : 0,
   "aggs": 
      "sales": 
         "date_histogram": 
            "field": "sold_date",
            "interval": "month", 
            "format": "yyyy-MM-dd",
            "min_doc_count" : 0, 
            "extended_bounds" :  
                "min" : "2016-01-01",
                "max" : "2016-03-31"

五、global全局桶

就是global bucket，就是将所有数据纳入聚合的scope，而不管之前的query

GET /ecommerce/product/_search 

  "size": 0, 
  "aggs": 
    "single_brand_avg_price": 
      "avg": 
        "field": "price"
      
    ,
    "all": 
      "global": ,
      "aggs": 
        "all_brand_avg_price": 
          "avg": 
            "field": "price"

总结

本文所有的es操作语句：https://www.syjshare.com/res/PJ9F6DSN

以上是关于ElasticSearch_04_ES的嵌套聚合，下钻分析，聚合分析的主要内容，如果未能解决你的问题，请参考以下文章

ElasticSearch_05_ES的嵌套聚合，下钻分析，聚合分析

ElasticSearch_05_ES聚合aggregations运算

ElasticSearch_07_ES聚合aggregations运算