自联接、子查询或其他?

Posted

技术标签:

【中文标题】自联接、子查询或其他?【英文标题】:Self-joins, subqueries, or something else? 【发布时间】:2014-02-05 10:52:45 【问题描述】:

好的,所以我需要找出在我的数据库中执行一些动态构建查询的最佳方法。

我有两张桌子MA_ObjectsMA_AttributesMA_Objects 包含用户列表,并具有表示与该用户相关的单值属性的列。 (例如,名字、姓氏)。 MA_Attributes 包含该用户的多值属性(例如电子邮件地址)。

MA_Attributes 存储由强制属性名称和属性值列组成的值对,这取决于其数据类型。所以每一列都会有一个attributeName,如果该属性是一个字符串,那么它的值将在attributeValueString中。其他 attributeValue* 列必须为 null。

表结构如下

CREATE TABLE [dbo].[MA_Objects](
    [id] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
    [firstName] [nvarchar](400) NULL,
    [givenNames] [nvarchar](400) NULL,
    [middleName] [nvarchar](400) NULL,
    [surname] [nvarchar](400) NULL,
    [objectclass] [nvarchar](400) NULL,
    [supervisor] [uniqueidentifier] NULL

CREATE TABLE [dbo].[MA_Attributes](
    [id] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
    [objectId] [uniqueidentifier] NOT NULL,
    [attributeName] [nvarchar](30) NOT NULL,
    [attributeValueString] [nvarchar](400) NULL,
    [attributeValueInt] [bigint] NULL,
    [attributeValueBinary] [varbinary](800) NULL,
    [attributeValueReference] [uniqueidentifier] NULL

[MA_Attributes].[objectId][MA_Objects].[id] 的 FK

因此,此应用程序需要能够通过查询这些属性值从 MA_Objects 表中找到对象 ID。搜索可能就像查找邮件地址为“test@test.com”的用户一样简单,也可能是存储在两个表中的属性的复杂组合(混合了 AND 和 OR 条件)。

MA_Objects 表中将有大约 500k 条记录。 MA_Attributes 表中将有数千万条记录。性能很重要。

我的问题是,我最好使用嵌套的 SELECT 子查询还是一系列自联接来实现这一点?还是完全不同的东西?两者似乎都有效,但我无法理解实际的查询计划以了解幕后发生的事情。

这是两种格式的相同查询

子查询模型

select distinct 
    [o].[id] 
from [dbo].[MA_Objects] [o] 
left join [dbo].[MA_Attributes] [a] 
on ([o].[id] = [a].[objectId]) 
where 
(
    [o].[objectClass] = N'user' 
and
    (
        (
            [o].[supervisor] in ('6213F48A-A97F-48E2-AFD7-2EF830C4DAA8', '0917EC45-CA23-41F5-911C-B92A90140AFD', '69B1DA67-4E3C-406E-8B78-B4633800B491')
        ) 
    and 
        (   
        [o].[id] in 
            (
                select [a].[objectId] 
                from [dbo].[MA_Attributes] [a] 
                where
                (
                    (
                        [a].[attributeName] = N'mailAlternateAddresses' 
                    and 
                        [a].[attributeValueString] in (N'test.test@test.com', N'test3.test3@test.com')
                    )
                )
            )
        )
    and 
        (   
        [o].[id] in 
            (
                select [a].[objectId] 
                from [dbo].[MA_Attributes] [a] 
                where
                (
                    (
                        [a].[attributeName] = N'objectSids'
                    and 
                        [a].[attributeValueBinary] in (0x0001020304, 0x0007070707)
                    )
                )
            )
        )
    and 
        (   
        [o].[id] in 
            (
                select [a].[objectId] 
                from [dbo].[MA_Attributes] [a] 
                where
                (
                    (
                        [a].[attributeName] = N'expiryDates' 
                    and
                        [a].[attributeValueInt] in (44, 77, 99)
                    )
                )
            )
        )
    )
)

自连接模型

select distinct 
    [o].[id] 
from [dbo].[MA_Objects] [o] 
left join [dbo].[MA_Attributes] [a] 
on ([o].[id] = [a].[objectId]) 
where 
(
    [o].[objectClass] = N'user' 
and
    (
        (
            [o].[supervisor] in ('6213F48A-A97F-48E2-AFD7-2EF830C4DAA8', '0917EC45-CA23-41F5-911C-B92A90140AFD', '69B1DA67-4E3C-406E-8B78-B4633800B491')
        ) 
        and 
        (   
            [o].[id] in 
            (
                select [a].[objectId] 
                from [dbo].[MA_Attributes] [a] 
                left join [dbo].[MA_Attributes] [a0] on ([a].[objectId] = [a0].[objectId]) 
                left join [dbo].[MA_Attributes] [a1] on ([a].[objectId] = [a1].[objectId]) 
                left join [dbo].[MA_Attributes] [a2] on ([a].[objectId] = [a2].[objectId]) 
                where 
                (
                    [a].[objectId] = [a0].[objectId]
                and 
                    [a].[id] <> [a0].[id] 
                and 
                    [a].[objectId] = [a1].[objectId] 
                and 
                    [a].[id] <> [a1].[id] 
                and 
                    [a].[objectId] = [a2].[objectId] 
                and 
                    [a].[id] <> [a2].[id] 
                and 
                    (
                        (
                            [a0].[attributeName] = N'mailAlternateAddresses' 
                        and 
                            [a0].[attributeValueString] in (N'test.test@test.com', N'test3.test3@test.com')
                        )
                    and 
                        (
                            [a1].[attributeName] = N'objectSids'
                        and 
                            [a1].[attributeValueBinary] in (0x0001020304, 0x0007070707)
                        )
                    and 
                        (
                            [a2].[attributeName] = N'expiryDates' 
                        and
                            [a2].[attributeValueInt] in (44, 77, 99)
                        )
                    )
                )
            )
        )
    )
)

【问题讨论】:

【参考方案1】:

嵌套的select语句几乎可以保证性能最差,SQL Server每次都需要去查表。

你的自加入语句仍然是子选择,你应该重写如下。

SELECT o.*
    FROM @MA_Objects AS o
    LEFT OUTER JOIN @MA_Attributes AS at1
        ON o.id = at1.objectId
    LEFT OUTER JOIN @MA_Attributes AS at2
        ON o.id = at2.objectId
    LEFT OUTER JOIN @MA_Attributes AS at3
        ON o.id = at3.objectId
    WHERE o.objectclass = N'user'
        AND o.supervisor IN ( '6213F48A-A97F-48E2-AFD7-2EF830C4DAA8', '0917EC45-CA23-41F5-911C-B92A90140AFD',
                              '69B1DA67-4E3C-406E-8B78-B4633800B491' )
        AND (
              at1.attributeName = N'mailAlternateAddresses'
              AND at1.attributeValueString IN ( N'test.test@test.com', N'test3.test3@test.com' ) )
        AND (
              at2.attributeName = N'objectSids'
              AND at2.attributeValueBinary IN ( 0x0001020304, 0x0007070707 ) )
        AND (
              at3.attributeName = N'expiryDates'
              AND at3.attributeValueInt IN ( 44, 77, 99 ) )

Join 操作将比IN 操作快。这样,您将只在每个 JOIN 中寻找有限数量的行,只有与您的 o.id 匹配的行才会被返回和评估。

当您想编写出色的性能查询时,您应该尝试尽快减少行数,并且只使用您需要的子集。

因此,根据您需要搜索的信息,您将需要相应地重写查询以尽快减少记录数以保持高性能。

注意:忘了说我把你的表格改成了表格变量来使用智能感知

【讨论】:

好的,看起来和感觉好多了。有趣的是,该查询产生的执行计划与我正在运行的其他一些实验性查询相同,但是这更具可读性并且也更容易构建。

以上是关于自联接、子查询或其他?的主要内容,如果未能解决你的问题,请参考以下文章

使用分组查询自联接

有没有办法改变这个 BigQuery 自联接以使用窗口函数?

查询没有分区依据或类似 rank() 的函数

自联接的困难 MySQL 更新查询

SQLAlchemy:在 MySQL 上使用自联接创建删除查询

了解在 SQL 查询的自联接中使用“Between”条件时的逻辑查询处理