左外连接还是 where 语句?
Posted
技术标签:
【中文标题】左外连接还是 where 语句?【英文标题】:Left outer join or where statement? 【发布时间】:2015-07-29 20:48:55 【问题描述】:我有一个查询,它给出了同一日期四个不同表中的记录总数。我将它们过滤为五个相关项目并排除一种类型。
SELECT
COUNT (*) AS table_total_filtered
FROM
db.table_1_20150727,
db.table_2_20150727,
db.table_3_20150727,
db.table_4_20150727
WHERE
item LIKE "A" OR item LIKE "B" OR item LIKE "C"
OR item LIKE "D" OR item LIKE "E" AND
type NOT LIKE "Z"
我有第二个查询,它给了我第二个表中的行数。数据可能存在时区差异,因此我将表格拉出三天,目标日期为中间日期。
SELECT
COUNT (*) AS table_2_total
FROM
db2.table_20150726,
db2.table__20150727,
db2.table__20150728
这两个表有一个共同的字段。公共字段在每个表中具有不同的名称。该字段在 table_1、table_2、table_3 和 table_4 中称为 ID1。在表中称为 ID2。我想获取第二个查询的结果,然后计算两个 ID 匹配的次数。
SELECT
COUNT (*) AS overlap
FROM
db.table_1_20150727,
db.table_2_20150727,
db.table_3_20150727,
db.table_4_20150727,
db2.table_20150726,
db2.table__20150727,
db2.table__20150728
WHERE
item LIKE "A" OR item LIKE "B" OR item LIKE "C"
OR item LIKE "D" OR item LIKE "E" AND
type NOT LIKE "Z" AND
ID1 = ID2
据我了解,此查询不起作用,因为第一步计算第一个表的计数,并试图计算不存在的 ID2。使用表名限定字段似乎也不起作用,因为文本不会变成蓝色。我相信此时排位赛不是我的问题,我需要做的是将第一个查询的结果与第二个查询的结果进行左连接,然后计算 ID1=ID2 的位置?
非常感谢任何有关如何编写/处理适当语句以连接这两个查询并计算 ID1 与 ID2 匹配的记录数的帮助!
谢谢!
【问题讨论】:
【参考方案1】:听起来您想要一个非常简单的JOIN
,并将您的每个初始查询作为来源:
SELECT
COUNT(*) as overlap
FROM (
SELECT
ID1
FROM
db.table_1_20150727,
db.table_2_20150727,
db.table_3_20150727,
db.table_4_20150727
WHERE
item LIKE "A" OR item LIKE "B" OR item LIKE "C"
OR item LIKE "D" OR item LIKE "E" AND
type NOT LIKE "Z") AS table_1
JOIN (
SELECT
ID2
FROM
db2.table_20150726,
db2.table__20150727,
db2.table__20150728) as table_2
ON table_1.ID1 = table_2.ID2
请注意,在许多 SQL 系统中,逗号表示JOIN
,但in BigQuery, the comma actually represents a union:
注意:与许多其他基于 SQL 的系统不同,BigQuery 使用逗号语法来表示表联合,而不是联合。
这可能就是您在上面发布的查询没有达到您预期的原因。
【讨论】:
谢谢丹尼。我得到资源超出错误。加入每个它返回不可能的#。我没有清楚地解释我的目标。查询中返回的值 > table_1 的总数。 table_2 是 table_1 的子集。当为 WHERE 语句中的项目过滤 table_1 时,Table_2 不包括识别重叠所需的字段。因此,为什么我要过滤 table_1,然后尝试将 table_2 加入较小的 table_1。我想要发生的是 A) table_1 过滤到 WHERE 中的标准。 B)table_2 与 A 的结果连接。C)计数总计,其中 ID1=ID2。 table_2 的间接过滤器。再次感谢! 两个表中是否有可能存在重复的 id?如果是这样,那可能会夸大返回的计数,因为 table_1 中的 2 行可能匹配 table_2 中的 2 行,导致特定 id 的计数为 4。您可以在子选择中使用GROUP BY ID1
和GROUP BY ID2
(或GROUP EACH BY
,如有必要)以确保没有重复项。另一种选择可能是将*** COUNT
更改为 EXACT_COUNT_DISTINCT(table_2.ID2)
,这只会计算唯一 ID。以上是关于左外连接还是 where 语句?的主要内容,如果未能解决你的问题,请参考以下文章