数据结构和算法之——跳表

Posted 2021-01-15 seniusen

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据结构和算法之——跳表相关的知识，希望对你有一定的参考价值。

之前我们知道，二分查找依赖数组的随机访问，所以只能用数组来实现。如果数据存储在链表中，就真的没法用二分查找了吗？而实际上，我们只需要对链表稍加改造，就可以实现类似“二分”的查找算法，这种改造之后的数据结构叫作跳表（Skip List）。

1. 何为跳表？

对于一个单链表，即使链表是有序的，如果我们想要在其中查找某个数据，也只能从头到尾遍历链表，这样效率自然就会很低。

技术分享图片

假如我们对链表每两个结点提取一个结点到上一级，然后建立一个索引指向原始结点，如下图所示。
技术分享图片

这时候，我们要查找某一个数据的时候，就可以先在索引里面查找出一个大的范围，然后再下降到原始链表中精确查找。

比如，我们要查找 16，我们发现 16 位于 13 和 17 之间，这时候，我们就从 13 的地方下降到原始链表，然后再往后查询。原来我们查找 16，需要遍历 10 个结点，现在只需要遍历 7 个结点。

我们发现，加一层索引后，查找一个结点需要遍历的次数减少了，也就是查找效率提高了。

那么我们再多加一级索引呢？效果会不会有更大提升？
技术分享图片

这一次，我们只需要遍历 6 个结点了。

数据量不大的时候这种方法可能效率提高得还不是很明显，下面看一个包含 64 个结点的例子，这次我们建立了五级索引。

技术分享图片

查找 62 的时候原来需要遍历 62 次，现在只需要 11 次即可。针对链表长度比较大的时候，构建索引查找效率的提升就会非常明显。

2. 跳表查询的分析？

如果链表中总共有 (n) 个结点，那么第一级索引就有 (frac{n}{2}) 个结点，第二级索引就有 (frac{n}{4}) 个结点，以此类推，那么第 (k) 级索引就有 (frac{n}{2^k}) 个结点。如果最高级索引有 2 个结点，那总的索引级数 (k = log_2n - 1)，如果我们算上原始链表的话，那也就是总共有 (log_2n) 级。

在第 (k) 级索引中，假设我们要查找的数据为 (x)，当我们查找到 (y) 结点时，发现 (y < x < z) 时此时我们就要下降到 (k-1) 级索引继续查找。在第 (k-1) 级索引中，(y) 和 (z) 之间只有三个结点，因此，我们最多只需要查找 3 个结点。以此类推，每一级的索引最多都只需要遍历 3 个结点。

技术分享图片