为啥有关MongoDB采用B树索引,以及Mysql B+树做索引
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为啥有关MongoDB采用B树索引,以及Mysql B+树做索引相关的知识,希望对你有一定的参考价值。
先从数据结构的角度来答。题主应该知道b-树和b+树最重要的一个区别就是b+树只有叶节点存放数据,其余节点用来索引,而b-树是每个索引节点都会有data域。
这就决定了b+树更适合用来存储外部数据,也就是所谓的磁盘数据。
从mysql(inoodb)的角度来看,b+树是用来充当索引的,一般来说索引非常大,尤其是关系性数据库这种数据量大的索引能达到亿级别,所以为了减少内存的占用,索引也会被存储在磁盘上。
那么mysql如何衡量查询效率呢?磁盘io次数,b-树(b类树)的特定就是每层节点数目非常多,层数很少,目的就是为了就少磁盘io次数,当查询数据的时候,最好的情况就是很快找到目标索引,然后读取数据,使用b+树就能很好的完成这个目的,但是b-树的每个节点都有data域(指针),这无疑增大了节点大小,说白了增加了磁盘io次数(磁盘io一次读出的数据量大小是固定的,单个数据变大,每次读出的就少,io次数增多,一次io多耗时啊!),而b+树除了叶子节点其它节点并不存储数据,节点小,磁盘io次数就少。这是优点之一。
另一个优点是什么,b+树所有的data域在叶子节点,一般来说都会进行一个优化,就是将所有的叶子节点用指针串起来。这样遍历叶子节点就能获得全部数据,这样就能进行区间访问啦。
至于mongodb为什么使用b-树而不是b+树,可以从它的设计角度来考虑,它并不是传统的关系性数据库,而是以json格式作为存储的nosql,目的就是高性能,高可用,易扩展。首先它摆脱了关系模型,上面所述的优点2需求就没那么强烈了,其次mysql由于使用b+树,数据都在叶节点上,每次查询都需要访问到叶节点,而mongodb使用b-树,所有节点都有data域,只要找到指定索引就可以进行访问,无疑单次查询平均快于mysql(但侧面来看mysql至少平均查询耗时差不多)。
总体来说,mysql选用b+树和mongodb选用b-树还是以自己的需求来选择的。 参考技术A 先从数据结构的角度来答。
题主应该知道b-树和b+树最重要的一个区别就是b+树只有叶节点存放数据,其余节点用来索引,而b-树是每个索引节点都会有data域。
这就决定了b+树更适合用来存储外部数据,也就是所谓的磁盘数据。
从mysql(inoodb)的角度来看,b+树是用来充当索引的,一般来说索引非常大,尤其是关系性数据库这种数据量大的索引能达到亿级别,所以为了减少内存的占用,索引也会被存储在磁盘上。
那么mysql如何衡量查询效率呢?磁盘io次数,b-树(b类树)的特定就是每层节点数目非常多,层数很少,目的就是为了就少磁盘io次数,当查询数据的时候,最好的情况就是很快找到目标索引,然后读取数据,使用b+树就能很好的完成这个目的,但是b-树的每个节点都有data域(指针),这无疑增大了节点大小,说白了增加了磁盘io次数(磁盘io一次读出的数据量大小是固定的,单个数据变大,每次读出的就少,io次数增多,一次io多耗时啊!),而b+树除了叶子节点其它节点并不存储数据,节点小,磁盘io次数就少。这是优点之一。
另一个优点是什么,b+树所有的data域在叶子节点,一般来说都会进行一个优化,就是将所有的叶子节点用指针串起来。这样遍历叶子节点就能获得全部数据,这样就能进行区间访问啦。
至于mongodb为什么使用b-树而不是b+树,可以从它的设计角度来考虑,它并不是传统的关系性数据库,而是以json格式作为存储的nosql,目的就是高性能,高可用,易扩展。首先它摆脱了关系模型,上面所述的优点2需求就没那么强烈了,其次mysql由于使用b+树,数据都在叶节点上,每次查询都需要访问到叶节点,而mongodb使用b-树,所有节点都有data域,只要找到指定索引就可以进行访问,无疑单次查询平均快于mysql(但侧面来看mysql至少平均查询耗时差不多)。
总体来说,mysql选用b+树和mongodb选用b-树还是以自己的需求来选择的。 参考技术B 先从数据结构的角度来答。 题主应该知道B-树和B+树最重要的一个区别就是B+树只有叶节点存放数据,其余节点用来索引,而B-树是每个索引节点都会有Data域。 这就决定了B+树更适合用来存储外部数据,也就是所谓的磁盘数据。 从Mysql(Inoodb)的角...本回答被提问者采纳
MySQL索引 B+tree和hash
mysql中的索引其主要内容包括Mysql常用的的索引类型(主键索引、唯一索引、普通索引和全文索引和组合索引)和两种常用的结构B-tree、哈希索引(自定义哈希索引和Innodb自适应哈希索引)
B-tree(MongoDB)
B-Tree就是我们常说的B树,B树这种数据结构常常用于实现数据库索引,因为它的查找效率比较高。
每次磁盘IO读取的数据我们称之为一页(page)。一页的大小与操作系统有关,一般为4k或者8k。这也就意味着读取一页内数据的时候,实际上发生了一次磁盘IO。
二叉查找树查询的时间复杂度是O(logN),查找速度最快和比较次数最少,既然性能已经如此优秀,但为什么实现索引是使用B-Tree而不是二叉查找树,关键因素是磁盘IO的次数。
数据库索引是存储在磁盘上,当表中的数据量比较大时,索引的大小也跟着增长,达到几个G甚至更多。当我们利用索引进行查询的时候,不可能把索引全部加载到内存中,只能逐一加载每个磁盘页,这里的磁盘页就对应索引树的节点。
从二叉树的查找过程了来看,树的高度和磁盘IO的次数都是4,所以最坏的情况下磁盘IO的次数由树的高度来决定。
从前面分析情况来看,减少磁盘IO的次数就必须要压缩树的高度,让瘦高的树尽量变成矮胖的树,所以B-Tree就在这样伟大的时代背景下诞生了。
B+tree(MySQL)
与B树的查询过程没有什么区别。但实际上有两点不一样:
a、首先B+树的中间节点不存储卫星数据,所以同样大小的磁盘页可以容纳更多的节点元素,如此一来,相同数量的数据下,B+树就相对来说要更加矮胖些,磁盘IO的次数更少。
b、由于只有叶子节点才保存卫星数据,B+树每次查询都要到叶子节点;而B树每次查询则不一样,最好的情况是根节点,最坏的情况是叶子节点,没有B+树稳定。
单节点可以存储更多的元素,使得查询磁盘IO次数更少。
所有查询都要查找到叶子节点,查询性能稳定。
所有叶子节点形成有序链表,便于范围查询。
组合索引
alter table newcity add index idx(CountryCode,District,Name);
索引从最左开始组合的。所以依次生成了三个索引。
可用explain 查看执行计划
以上是关于为啥有关MongoDB采用B树索引,以及Mysql B+树做索引的主要内容,如果未能解决你的问题,请参考以下文章
为什么 MongoDB (索引)使用B-树而 Mysql 使用 B+树