sqlserver 索引
Posted 安小
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sqlserver 索引相关的知识,希望对你有一定的参考价值。
参考原文:http://www.cnblogs.com/tjy9999/p/4494662.html
2. 非聚集索引
SET STATISTICS io ON SET STATISTICS time ON -- 1. 没有索引(logical reads 568) SELECT FirstName, LastName FROM dbo.Contact WHERE LastName LIKE \'S%\' -- 创建非聚集索引 IF EXISTS (SELECT * FROM sys.indexes WHERE OBJECT_ID = OBJECT_ID(\'Person.Contact\') AND name = \'FullName\') DROP INDEX Person.Contact.FullName; CREATE NONCLUSTERED INDEX FullName ON Person.Contact( LastName, FirstName ); GO -- 2. 完全覆盖的查询(logical reads 14) SELECT FirstName, LastName FROM dbo.Contact WHERE LastName LIKE \'S%\' -- 3. 非完全覆盖的查询(logical reads 568) SQL Server觉得使用索引查找,比直接扫描还要做更多的工作,因此没有使用索引. SELECT * FROM dbo.Contact WHERE LastName LIKE \'S%\' -- 4. 非完全覆盖的查询(logical reads 111) 改变where条件,从而减少查询结果的范围,增加使用索引的好处,SQL Server使用索引查找来缩短查询时间. SELECT * FROM dbo.Contacts WHERE LastName LIKE \'Ste%\'
3. 聚集索引
非聚集索引是独立的对象,有自己的存储空间,而聚集索引和表是同一个对象。创建一个聚集索引的时候,SQL Server用key对表进行排序,并且在修改数据的时候维护排序。因此当聚集索引的键是订单号,那么同一个订单的信息在表中的顺序是连续的。每张表只能有一个聚集索引,因为表只能按照一个顺序来排列。如果一张表上没有聚集索引,表也被叫做堆,因此表分为两种类型:聚集索引表和堆表。
CREATE CLUSTERED INDEX IX_SalesOrderDetail ON dbo.SalesOrderDetail (SalesOrderID, SalesOrderDetailID) GO -- 1. 堆表查询(logical reads 1495) & 聚集索引表查询(logical reads 3) SELECT * FROM SalesOrderDetailWHERE SalesOrderID = 43671 AND SalesOrderDetailID = 120 -- 2. 堆表查询(logical reads 1495) & 聚集索引表查询(logical reads 1513) -- ProductID列不是聚集索引的键。两种表都进行了表扫描。因为包含了聚集索引,聚集索引表更大,所以扫描了更多的次数。 SELECT * FROM SalesOrderDetail WHERE ProductID = 755
4. 页和区
SQL Server在创建数据库的时候,即指定数据文件的存放位置。SQL Server读取的不是行,读取的单位是一页或者更多页。页是最小的IO单元,每页的大小是8K。一个分区包含8个连续的页。每一行的大小=所有列的大小+行的头部信息。
5. 包含列
- 表中的每一行在索引中总是有一个入口(这条规则有一个意外,在后面的级别中我们会讲到)。这些入口总是用索引键排序。
- 在聚集索引中,索引的入口就是表的实际行。
- 在非聚集索引中,入口和数据行是分开的,索引由索引键列和标签组成,标签是索引键列到表数据行的映射。
那些经常出现在select中的,而不是where子句中的列,最好放在包含列中。索引列不会影响索引入口的排序,只会更新索引的入口,但是不需要移动。
CREATE NONCLUSTERED INDEX FK_ProductID_ ModifiedDate ON Sales.SalesOrderDetail (ProductID, ModifiedDate) INCLUDE (OrderQty, UnitPrice, LineTotal) -- 该查询在包含列的非聚集索引下速度更快 SELECT ProductID , ModifiedDate , SUM(OrderQty) AS \'No of Items\' , AVG(UnitPrice) \'Avg Price\' , SUM(LineTotal) \'Total Value\' FROM Sales.SalesOrderDetail WHERE ProductID = 888 GROUP BY ProductID ,ModifiedDate ;
6. 标签
据库中的每一行,在任何时间,都可以用三个数字来标识:文件号-页号-行号。这三个数字的复合标识叫做rowid,通常叫做RID。因此文件1的77页的12行,RID会显示成1:77:12。
一个堆表的非聚集索引:RID为基础的标签
通常来讲,一个堆表的行是不会移动的,一旦他们被插入一页,他们会保持在这页中。更加精准的说法是:在堆表中的行很少移动,当他们移动的时候,在旧的位置上会留下新的地址。因为堆表的行不会移动,在堆表中RID永久的标识每一行。不仅值是永久的,而且物理位置也是永久的。索引中每一行的标签都是很有效的,直接指向对应的数据行。
聚集索引的非聚集索引:键为基础的标签
聚集索引表的行是可以移动的,在修改数据或者是维护索引的时候可能会分配到另外一页。当聚集索引的一行被移动到新页的时候,它只是被移动,而聚集索引的键值没有改变。因此可以用索引键值作为行的标签。聚集索引的键应该满足三个条件:短小、静态,并且唯一。聚集索引键值的改变,会导致每一个非聚集索引中对应行的入口发生更新操作。因此,如果一张表有n个非聚集索引,一次索引键的更新,会变成n+1次的更新。
非聚集索引的入口由查询键列、包含列、标签组成。标签的值既可以是RID,也可以是聚集索引的键,这依赖于表是堆表还是聚集索引表。为表选择最好的聚集索引需要你依据三条规则,确保索引键是一个好的标签。
7. 过滤的索引
过滤的索引消除了索引中无用的入口,产生的索引更小,更有利于查询。过滤的索引是通过在create index中指定where子句来实现的。
CREATE NONCLUSTERED INDEX FK_ProductID_ModifiedDate ON Sales.SalesOrderDetail (ProductID,ModifiedDate) INCLUDE (OrderQty,UnitPrice,LineTotal) WHERE SpecialOfferID <>1 -- 当SpecialOfferID=1的行数占到95%时,在SpecialOfferID=1上创建索引没有意义,使用过滤的索引可以产生较小的索引 SELECT ProductID, ModifiedDate, SUM(OrderQty) \'No of Items\', AVG(UnitPrice) \'Avg Price\', SUM(LineTotal) \'Total Value\' FROM Sales.SalesOrderDetail WHERE SpecialOfferID <> 1 GROUP BY ProductID, ModifiedDate
8. 唯一索引
唯一索引比较特别,不仅提高查询的性能,同时也带来数据完整性的好处。在SQL Server中,唯一索引是强制主键和候选键约束的唯一合理的方法。唯一索引不同于其他索引,入口不允许有相同的索引键值。因为索引的每个入口都会映射表中的一行,不允许相同的索引入口,也就是不允许表中存在相同的行。
a. 定义主键约束或者唯一索引约束,SQL Server会自动创建索引。你可以只包含索引,没有约束;但是不能只有约束,没有索引。在定义约束的时候,就会创建一个和约束同名的索引。每张表可以有多个唯一索引。
-- 创建唯一索引 CREATE UNIQUE NONCLUSTERED INDEX [AK_Product_Name] ON Production.Product ([Name]); -- 添加主键约束 ALTER TABLE Production.Product ADD CONSTRAINT PK_Product_ProductID PRIMARY KEY CLUSTERED (ProductID);
b. 主键约束和唯一约束有一些不同:
每张表只能包含一个主键约束,可以包含多个唯一约束。
主键约束不允许NULL值,唯一约束允许NULL值。但是,唯一约束视两个NULL为重复值,因此唯一约束列中只能存在一个NULL值。创建一个唯一过滤索引,允许UPCode列中存在多个NULL值。
创建主键约束,顺便会创建聚集索引,以下情况除外:创建唯一约束,顺便会创建非聚集索引,除非创建的时候指定了CLUSTERED关键字,并且表还没有聚集索引
-
- 表中已经包含聚集索引。
- 创建约束的时候指定了NONCLUSTERED关键字。
c. 过滤索引,允许多个NULL值存在
CREATE UNIQUE NONCLUSTERED INDEX AK_UPCode on ProductDemo(UPCode) where UPCode!=null)
d. 多行插入时当IGNORE_DUP_KEY = ON,只有重复的行会插入失败。update,create index和alter index语句会忽略IGNORE_DUP_KEY选项。IGNORE_DUP_KEY选项也可以在添加主键和唯一约束的使用使用。
CREATE UNIQUE NONCLUSTERED INDEX AK_Product_Name ON Production.Product ( [Name] ) WITH ( IGNORE_DUP_KEY = OFF );
9. 读懂执行计划
一个执行计划是SQL Server根据一个查询的一系列指令。SQL Server管理器可以用为文本,图形或者XML格式显示执行计划。
(1) 单表查询优化
观察下面这个查询语句在不同索引情况下的执行计划
SELECT LastName, FirstName, MiddleName, Title FROM Person.Contact WHERE Suffix = \'Jr.\' ORDER BY Title
a. 无索引
b. 包含列的非聚集索引
CREATE NONCLUSTERED INDEX IX_Suffix ON Person.Contact ( Suffix ) INCLUDE ( Title, FirstName, MiddleName, LastName )
再次执行查询,逻辑读从569次降到了3次。在新的非聚集索引中,Suffix是索引键,where stuffix=\'Jr.\'的记录是聚集在一起的,因此会减少获取数据所需要的读取次数。排序操 作,占用了超过75%的消耗,而不是之前看到的5%。因此,原来的计划需要75/5=15倍。
c. 包含排序列的非聚集索引
CREATE NONCLUSTERED INDEX IX_Suffix ON Person.Contact ( Suffix, Title ) INCLUDE ( FirstName, MiddleName, LastName )
现在,需要的信息会聚集在一起,新的执行计划如下所示。
(2) 表连接的查询优化
SELECT C.LastName, C.FirstName, C.MiddleName, C.Title, H.SalesOrderID, H.OrderDate FROM Person.Contact C JOIN Sales.SalesOrderHeader H ON H.ContactID = C.ContactID WHERE Suffix = \'Jr.\' ORDER BY Title
不添加其他索引的执行计划是下面的样子
上面的执行计划告诉我们一些事情:
- 两张表同时被扫描。
- 大部分的工作花费在表扫描上。
- 大部分的数据来自于SalesOrderHeader表。
- 两张表聚集的顺序不是一样的,因此SalesOrderHeader中满足条件的每一行,在Contact表需要额外的工作。这种情况就需要哈希匹配操作。
- 堆排序的需要是微不足道的。
在测试查询计划瓶颈时,可以增加两个表的查询范围,从而查看哪个节点的耗时明显提高。增加Contact行导致匹配和排序操作是这个查询关键。如果我们需要提高性能,我们要首先从这两个操作入手。ContactID是SalesOrderHeader表的外键。通过ContactID外键访问SalesOrderHeader表的数据,在业务需求中很常见。在ContactID上建立索引会有很大的帮助。
CREATE NONCLUSTERED INDEX IX_ContactID ON Sales.SalesOrderHeader (ContactID ) INCLUDE ( OrderDate )
添加索引后的执行计划如下:
因为所有的输入流都按照ContactID排序,没有了分组和哈希匹配,工作量从26+5+3=34%减少到4%。
(3) 排序,预排序和哈希匹配
很多操作希望在操作之前数据是分好组的。这类操作包括:distinct,union,group by和join。正常情况,SQL Server将使用下面三种方法中的一种来完成分组:
- 很高兴的发现,数据已经预先排序进入分组序列。
- 通过哈希匹配操作对数据分组。
- 对即将分组的序列中的数据排序。
预先排序
索引就是你预先排序数据的方式,向SQL Server提供它通常所需的顺序。这就是创建有包含列的非聚集索引有利于查询的原因。事实上,如果你把鼠标放在图形执行计划的“合并连接”图标上的时候,将会出现“从两个已进行了相应排序的输入表中,使用其排序顺序对行进行匹配”的提示信息。这告诉我们两张表/索引在连接的时候,使用了最小的内存和处理器时间。
哈希匹配
如果输入的数据不是想要的顺序,SQL Server可能会用哈希匹配操作进行分组。哈希匹配是一种消耗大量内存的技术,但是比排序要高效。在执行distinct,union和join操作的时候,哈希匹配比排序有优势,因为处理完一行,这一行就可以进行下一个操作,而不用等所有行都哈希匹配完。但是,在计算分组聚合的时候,在进入下一个阶段之前,还是需要读取所有行才行。
哈希匹配所需要的内存,直接和分组产生的数量有关。
SELECT Gender, COUNT(*)
FROM NewYorkCityCensus
GROUP BY Gender
上面的分组消耗的内存就很少,因为只有两个分组:Female和Male。和输入数据的行数没有关系。
SELECT LastName, FirstName, COUNT(*)
FROM NewYorkCityCensus
GROUP BY LastName, FirstName
这个分组就会占用大量的内存,因为产生大量的组。这么大量的内存消耗,导致哈希匹配在查询的时候变成了一个不受欢迎的技术。
排序
如果数据没有排好序(没有索引),同时SQL Server认为哈希匹配不能高效的完成,SQL Server就会对数据进行排序。正常来说,这可能是最不想看到的。因此,如果排序图标出现在执行计划的早期,检查一下是否可以改进你的索引。如果排序图标出现在执行计划的后期,很可能意味着SQL Server因为请求中的order by子句,而对最终输出结果进行排序;这个顺序不同于join,group by和union中的顺序。这时候的排序很可能没有办法避免。
以上是关于sqlserver 索引的主要内容,如果未能解决你的问题,请参考以下文章
solr分布式索引实战分片配置读取:工具类configUtil.java,读取配置代码片段,配置实例
java.lang.IllegalStateException:键 f0 的片段不再存在:索引 1
使用实体框架迁移时 SQL Server 连接抛出异常 - 添加代码片段
javascript UV Index Monitor App订阅PubNub并显示UV索引值。博文的代码片段。在这里查看项目:https:// githu
c_cpp UV Index Indicator订阅PubNub并使用颜色显示UV索引值。博文的代码片段。在这里查看项目:https:/