数据库性能优化策略

Posted chengchao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据库性能优化策略相关的知识,希望对你有一定的参考价值。

有数据表明:用户可以承受的最大等待时间为8秒。 
之前曾见过某个产品的一个列表页,40秒左右才能加载出来,几乎没有进行任何优化措施。 
没有索引,没有缓存机制,没有进行sql优化(sql语句很长,并且各种left join表关联)。 
数据库优化策略有很多,设计初期,建立好的数据结构对于后期性能优化至关重要。因为数据库结构是系统的基石,基础打不好,使用各种优化策略,也不能达到很完美的效果。

一:规范化与反规范化

大家都听说过:数据库设计三大范式. 
1.第一范式(确保每列保持原子性) 
第一范式是最基本的范式。如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库表满足了第一范式。

2.第二范式(确保表中的每列都和主键相关) 
第二范式在第一范式的基础之上更进一层。第二范式需要确保数据库表中的每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合主键而言)。也就是说在一个数据库表中,一个表中只能保存一种数据,不可以把多种数据保存在同一张数据库表中。

3.第三范式(确保每列都和主键列直接相关,而不是间接相关) 
第三范式需要确保数据表中的每一列数据都和主键直接相关,而不能间接相关。

没有最好的设计,只有最合适的设计,所以不要过分注重理论。三范式可以作为一个基本依据,不要生搬硬套。 
数据库操作中最为耗时的操作就是 IO 处理,大部分数据库操作 90% 以上的时间都花在了 IO 读写上面。所以尽可能减少 IO 读写量,可以在很大程度上提高数据库操作的性能。

二:优化策略:

在设计表时应同时考虑对某些表进行反规范化,方法有以下几种:

一是分割表。 
分割表可分为水平分割表和垂直分割表两种: 
水平分割是按照行将一个表分割为多个表,这可以提高每个表的查询速度,但查询、更新时要选择不同的表,统计时要汇总多个表,因此应用程序会更复杂。 
垂直分割是对于一个列很多的表,若某些列的访问频率远远高于其它列,就可以将主键和这些列作为一个表,将主键和其它列作为另外一个表。通过减少列的宽度,增加了每个数据页的行数,一次I/O就可以扫描更多的行,从而提高了访问每一个表的速度。但是由于造成了多表连接,所以应该在同时查询或更新不同分割表中的列的情况比较少的情况下使用。

二是保留冗余列。当两个或多个表在查询中经常需要连接时,可以在其中一个表上增加若干冗余的列,以避免表之间的连接过于频繁,一般在冗余列的数据不经常变动的情况下使用。

三是增加派生列。派生列是由表中的其它多个列的计算所得,增加派生列可以减少统计运算,在数据汇总时可以大大缩短运算时间。

在数据库的设计中,数据应当按两种类别进行组织:频繁访问的数据和频繁修改的数据。 
对于频繁访问但是不频繁修改的数据,内部设计应当物理不规范化。 
对于频繁修改但并不频繁访问的数据,内部设计应当物理规范化。 
有时还需将规范化的表作为逻辑数据库设计的基础,然后再根据整个应用系统的需要,物理地非规范化数据。 
规范与反规范都是建立在实际的操作基础之上的约束,脱离了实际两者都没有意义。只有把两者合理地结合在一起,才能相互补充,发挥各自的优点。

适当拆分 
有些时候,我们可能会希望将一个完整的对象对应于一张数据库表,这对于应用程序开发来说是很有好的,但是有些时候可能会在性能上带来较大的问题。

当我们的表中存在类似于 TEXT 或者是很大的 VARCHAR类型的大字段的时候,如果我们大部分访问这张表的时候都不需要这个字段,我们就该义无反顾的将其拆分到另外的独立表中,以减少常用数据所占用的存储空间。这样做的一个明显好处就是每个数据块中可以存储的数据条数可以大大增加,既减少物理 IO 次数,也能大大提高内存中的缓存命中率。

适度冗余 
为什么我们要冗余?这不是增加了每条数据的大小,减少了每个数据块可存放记录条数吗? 
确实,这样做是会增大每条记录的大小,降低每条记录中可存放数据的条数,但是在有些场景下我们仍然还是不得不这样做: 
1.被频繁引用且只能通过 Join 2张(或者更多)大表的方式才能得到的独立小字段。 
2.这样的场景由于每次Join仅仅只是为了取得某个小字段的值,Join到的记录又大,会造成大量不必要的 IO,完全可以通过空间换取时间的方式来优化。不过,冗余的同时需要确保数据的一致性不会遭到破坏,确保更新的同时冗余字段也被更新。

三:其他技巧:

1:字段类型优化 
下面的这些关于字段类型的优化建议主要适用于记录条数较多,数据量较大的场景,因为精细化的数据类型设置可能带来维护成本的提高,过度优化也可能会带来其他的问题:

(1)数字类型 
非万不得已不要使用DOUBLE,不仅仅只是存储长度的问题,同时还会存在精确性的问题。同样,固定精度的小数,也不建议使用DECIMAL。 
非万不得已不要使用DOUBLE,不仅仅只是存储长度的问题,同时还会存在精确性的问题。同样,固定精度的小数,也不建议使用DECIMAL 
(2)字符类型 
非万不得已不要使用 TEXT 数据类型,其处理方式决定了他的性能要低于char或者是varchar类型的处理。定长字段,建议使用 CHAR 类型,不定长字段尽量使用 VARCHAR,且仅仅设定适当的最大长度,而不是非常随意的给一个很大的最大长度限定,因为不同的长度范围,mysql也会有不一样的存储处理。

(3)时间类型 
尽量使用TIMESTAMP类型,因为其存储空间只需要 DATETIME 类型的一半。对于只需要精确到某一天的数据类型,建议使用DATE类型,因为他的存储空间只需要3个字节,比TIMESTAMP还少。不建议通过INT类型类存储一个unix timestamp 的值,因为这太不直观,会给维护带来不必要的麻烦,同时还不会带来任何好处。

2:合理使用索引

3:缓存机制

4:用EXPLAIN使你的SELECT查询更加清晰

5:利用LIMIT 1取得唯一行

6: 尽量避免SELECT *命令

7:使用ENUM而不是VARCHAR

8:尽可能的使用NOT NULL 
 NULL 类型比较特殊,SQL 难优化。虽然 mysql NULL类型和 Oracle 的NULL 有差异,会进入索引中,但如果是一个组合索引,那么这个NULL 类型的字段会极大影响整个索引的效率。此外,NULL 在索引中的处理也是特殊的,也会占用额外的存放空间。

 很多人觉得 NULL 会节省一些空间,所以尽量让NULL来达到节省IO的目的,但是大部分时候这会适得其反,虽然空间上可能确实有一定节省,倒是带来了很多其他的优化问题,不但没有将IO量省下来,反而加大了SQL的IO量。所以尽量确保 DEFAULT 值不是 NULL,也是一个很好的表结构设计优化习惯。

参考:

http://blog.csdn.net/u013628152/article/details/51835121

以上是关于数据库性能优化策略的主要内容,如果未能解决你的问题,请参考以下文章

程序性能优化策略

程序性能优化策略

常见性能优化策略的总结(转)

常见性能优化策略的总结 good

HBase 数据库检索性能优化策略

HBase 数据库检索性能优化策略