mysql的去重问题

Posted 2023-05-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了mysql的去重问题相关的知识，希望对你有一定的参考价值。

我有3个字段，id，time，name。name可能会重复，time是惟一的
我希望查询出一个表，每个name只出现一次，同时该行能够查到该name中time最大的一行？

select * from 你的表 a inner join (select name,max(time) as time from 你的表 group by name) b on a.name = b.name where a.time=b.time

解释：首先分组取出同一名字下的最大 time，然后通过 inner join 链接查询你的表，
条件是同一name下的最大 time 记录相同！参考技术A 1.select * from (select rank() over(partition by name order by time desc) rk, table.* from table) t
where t.rk<=1;
2.
select * from tb a inner join (select name,max(time) as time from tb group by name) b on a.time=b.time

你试一下吧我暂时没法调试追问

加了20分。能解释一下第一句吗？

追答

RANK ( ) OVER ( [query_partition_clause] order_by_clause )

可实现按指定的字段分组排序，对于相同分组字段的结果集进行排序,
其中PARTITION BY 为分组字段，ORDER BY 指定排序字段

over不能单独使用，要和分析函数：rank(),dense_rank(),row_number()等一起使用。
其参数：over（partition by columnname1 order by columnname2）
含义：按columname1指定的字段进行分组排序，或者说按字段columnname1的值进行分组排序。
例如：employees表中，有两个部门的记录：department_id ＝10和20
select department_id，rank（） over（partition by department_id order by salary) from employees就是指在部门10中进行薪水的排名，在部门20中进行薪水排名。如果是partition by org_id，则是在整个公司内进行排名。

排序后取到<=1 的
不知道这个明白不？？能用吗？？我没测试

本回答被提问者采纳参考技术B select top 1 distinct name from table order by time desc

Elasticsearches 查询去重

在这里插入图片描述

1.概述

转载：Elasticsearch6.X 去重详解

1、题记

Elasticsearch有没有类似mysql的distinct的去重功能呢？

1）如何去重计数？
类似mysql: select distinct(count(1)) from my_table;
2）如何获取去重结果。
类似mysql：SELECT DISTINCT name,age FROM users;

2、需求

1）对ES的检索结果进行去重统计计数。
2）对ES的检索结果去重后显示

3、分析

1）统计计数需要借助ES聚合功能结合cardinality实现。
2）去重显示结果有两种方式：
方式一：使用字段聚合+top_hots聚合方式。
方式二：使用collapse折叠功能。

4、DSL源码

1）统计去重数目。

GET books/_search
{
  "size": 0,
  "aggs": {
    "books_count": {
      "cardinality": {
        "field": "title.keyword"
      }
    }
  }
}

2）返回去重内容
方式一：top_hits聚合

GET books/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "type": {
      "terms": {
        "field": "title.keyword",
        "size": 10
      },
      "aggs": {
        "title_top": {
          "top_hits": {
            "_source": {
              "includes": [
                "title"
              ]
            },
            "sort": [
              {
                "title.keyword": {
                  "order": "desc"
                }
              }
            ],
            "size": 1
          }
        }
      }
    }
  },
  "size": 0
}

方式二：折叠

GET books/_search
{
"query": {
"match_all":{}
},
"collapse": {
"field": "title.keyword"
}
}

方式二较方式一：
1）简化；
2）性能比aggs的实现要好很多。
更多DSL详见：http://t.cn/RmafXMJ

5、注意事项&小结
1、折叠功能ES5.3版本之后才发布的。
2、聚合&折叠只能针对keyword类型有效；
3、只要思想不滑坡，方案总比问题多！

以上是关于mysql的去重问题的主要内容，如果未能解决你的问题，请参考以下文章