在不创建新表的情况下排除重复项的更好方法

Question

我有一个查询使用子查询来检测连接表中的项是否有重复记录，如果是这样，数据不会被提取到父查询中：

select
  (f.listing_datetime) as datetime,
  round(avg(f.listing_price), 0) as price,
  round(avg(f.listing_sqft), 0) as sqft,
  round(avg(f.listing_p_per_sqft), 2) as p_per_ft,
  f.listing_neighborhood, count(*) as points
from ( 
    select
      a.listing_datetime, a.listing_price, a.listing_sqft, a.listing_p_per_sqft,
      a.listing_neighborhood, i.listing_tokens, count(i.listing_tokens) as c
    from
      agg_cl_data as a
      left join incoming_cl_data_desc as i
        on a.listing_url = i.listing_url
    where a.listing_datetime between curdate() - interval 30 day and curdate()
    group by i.listing_tokens
    having c < 2
  ) as f
group by day(f.listing_datetime), f.listing_neighborhood
order by f.listing_datetime;

正如您所看到的，通过使用一种简单的方法来处理带有HAVING子句的dupes，我实际上丢失了存储的原始记录，因为抛出了大于2的任何聚合记录。有没有更好的方法来做到这一点，以便我不会丢失一些数据，没有创建一个可以查询的新表？

Answer 1

另一答案