仅不到五万字轻松了解二叉树和堆

Posted 2021-12-13 跳动的bit

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了仅不到五万字轻松了解二叉树和堆相关的知识，希望对你有一定的参考价值。

文章目录

前言

这里并不可能把所有树的结构都在此篇文章进行详细介绍，我会通过步步延伸的方式去了解树

树 ➡ 二叉树 ➡ 搜索二叉树 ➡ 平衡搜索二叉树 (AVL树和红黑树) ➡ M叉多叉平衡搜索树 (B树和B+树)

一、树概念及结构

💦 树的概念

树是一种非线性的数据结构，它是由 n (n>=0) 个有限结点组成一个具有层次关系的集合。
把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下。

1️⃣ 有一个特殊的结点，称为根结点，根节点没有前驱结点

2️⃣ 除根节点外，其余结点被分为 M (M>0) 个互不相交的集合 T1、T2 … 、Tm，其中每一个集合 Ti (1<=i<=m) 又是一棵结构与树类似的子树，每棵子树的根结点有且只有一个前驱，可以有0个或多个后继

3️⃣ 因此，树是递归定义的

⚠ 注意：树形结构中，子树之间不能有交集，否则就不是树形结构

▶ 子树是不相交的

▶ 除了根节点外，每个节点有且仅有一个父节点

▶ 一棵 N 个节点的树有 N-1 条连

💦 树的相关概念

1️⃣ 节点的度：一个节点含有的子树的个数称为该节点的度；如上图：A 的为6

2️⃣ 叶节点或终端节点：度为0的节点称为叶节点；如上图：B、C、H、I…等节点为叶节点

3️⃣ 非终端节点或分支节点：度不为0的节点；如上图：D、E、F、G…等节点为分支节点

4️⃣ 双亲节点或父节点：若一个节点含有子节点，则这个节点称为其子节点的父节点；如上图：A 是 B 的父节点

5️⃣ 孩子节点或子节点：一个节点含有的子树的根节点称为该节点的子节点；如上图：B 是 A 的孩子节点

6️⃣ 兄弟节点：具有相同父节点的节点互称为兄弟节点 (这里指的是亲兄弟，而非表堂兄弟)；如上图：B、C 是兄弟节点

7️⃣ 树的度：一棵树中，最大的节点的度称为树的度；如上图：树的度为 6

8️⃣ 节点的层次：从根开始定义起，根为第 1 层，根的子节点为第 2 层，以此类推；如上图：树的层次为 4

9️⃣ 树的高度或深度：树中节点的最大层次 (这里有 2 种说法：其一，根算 0，其二，根算 1)；如上图：树的高度为 4
这里推荐理解其二，因为：
当要算空树的高度是多少时，按其一的理解，高度是 -1；按其二的理解，高度是 0
当要算只有一个根节点的树的高度是多少时，按其一的理解，高度是 0；按其二的理解，高度是 1

🔟 堂兄弟节点：双亲在同一层的节点互为堂兄弟；如上图：H、I 互为兄弟节点

1️⃣1️⃣ 节点的祖先：从根到该节点所经分支上的所有节点；如上图：A 是所有节点的祖先

1️⃣2️⃣ 子孙：以某节点为根的子树中任一节点都称为该节点的子孙。如上图：所有节点都是 A 的子孙

1️⃣3️⃣ 森林：由 m(m>0) 棵互不相交的树的集合称为森林，并查集就是一个森林

💦 树的表示

树结构相对线性表就比较复杂了，要存储表示起来比较麻烦，既要保存值域，也要保存结点和结点之间的关系。
实际中树有很多种表示方式如：双亲表示法，孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的孩子兄弟表示法。

⚠ 对于树的定义其实并不好定义，因为其中有许多未知的因素

1、除非明确说明树的度是多少，比如树的度是 6

struct TreeNode
{
	int data;
	//这种结构其实是很浪费的，因为最大的度是6,但往下可能并没有那么多
	struct TreeNode* subs[6];//指针数组
}

2、如果没有说明树的度是多少，可以使用顺序表存储

struct TreeNode
{
	int data;
	SeqList subs;//顺序表中存储的是节点的指针
	//vector<struct TreeNode*>subs;//在C++学了模板后可以这样定义
}

3、双亲表示法

struct TreeNode
{
	int data;
	struct TreeNode* parent;
}

4、左孩子右兄弟表示法 (比较实用)

typedef int DataTpye;
struct Node
{
	struct Node* _firstChild1;//第一个孩子节点(如有多个孩子，那么只指向最左边的)
	struct Node* _pNextBrother;//指向下一个兄弟节点
	DataType _data;//节点中的数据域
}

💦 树在实际中的运用 (表示文件系统的目录树结构)

❗ 以下为 Linux 下的目录树 ❕

二、二叉树概念及结构

💦 二叉树的概念

一棵二叉树是节点的一个有限集合，该集合：
1、或者为空
2、由一个根节点加上两棵别称为左子树和右子树的二叉树组成

1️⃣ 二叉树不存在度大于 2 的结点

2️⃣ 二叉树的子树有左右之分，次序不能颠倒，因此二叉树是有序树

⚠ 注意：对于任意的二叉树都是由以下几种情况复合而成的：

❓ 现实中的存在这种二叉树吗 ❔

在人为的干涉的情况下一定是存在的，因为没有什么是一电锯解决不了的事

当然也不乏有大自然的鬼斧神工，注意区分普通的树

💦 特殊的二叉树

1️⃣ 满二叉树：一个二叉树，如果每一个层的结点数都达到最大值，则这个二叉树就是满二叉树。也就是说，如果一个二叉树的层数为 K，且结点总数是 2^k - 1，则它就是满二叉树。

2️⃣ 完全二叉树：完全二叉树的前 k - 1 层都满的，第 k 层不一定满 (这就意味着满二叉树是完全二叉树，但完全二叉树不一定是满二叉树)，但是从最后一层从左到右必须是连续的，也就是说完全二叉树中度为 1 的节点最少 0 个，最多 1 个。完全二叉树是效率很高的数据结构，完全二叉树是由满二叉树而引出来的。对于深度为 K 的，有 n 个结点的二叉树，且每个结点都与深度为 K 的满二叉树中编号从 1 至 n 的结点一一对应称之为完全二叉树。要注意的是满二叉树是一种特殊的完全二叉树。

▶ 满二叉树的节点个数就是等比求和

2⁰ + 2¹ + 2² + … 2^(k-1)

利用公式所以满二叉树的节点个数就是 2^k - 1

▶ 完全二叉树的节点个数

最多：2^k - 1 这是满二叉树

最少：2^(k-1) - 1 + 1 -> 2^(k-1)

2^(k-1) - 1 这是前 k-1 层节点的个数，+1 则是第 k 层至少一个

💦 二叉树的性质

1️⃣ 若规定根节点的层数为 1，则一棵非空二叉树的第 i 层上最多有 2^(i-1) 个结点

2️⃣ 若规定根节点的层数为 1，则深度为 h 的二叉树的最大结点数是 2^h - 1

3️⃣ 对任何一棵二叉树, 如果度为 0 其叶结点个数为 n₀, 度为 2 的分支结点个数为 n₂,则有 n₀＝ n₂＋1

4️⃣ 若规定根节点的层数为 1，具有 n 个结点的满二叉树的深度为 h = log₂(n+1) ps：log₂(n+1)是 log 以 2 为底， n+1 的对数

5️⃣ 对于具有 n 个结点的完全二叉树，如果按照从上至下从左至右的数组顺序对所有节点从 0 开始编号，则对于序号为 i 的结点有：

▶ 若 i>0，i 位置节点的双亲序号：(i-1)/2；i=0，i 为根节点编号，无双亲节点

▶ 若 2i+1<n，左孩子序号：2i+1，2i+1>=n 否则无左孩子

▶ 若 2i+2<n，右孩子序号：2i+2，2i+2>=n 否则无右孩子

💦 二叉树的概念选择题

1、某二叉树共有 399 个结点，其中有 199 个度为 2 的节点，则该二叉树中的叶子节点数为（）

A. 不存在这样的二叉树

B. 200

C. 198

D. 199

📝 分析：这里的叶子节点就是度为 0 的节点，已知二叉树中度为 2 的节点为 199 个，则度为 0 的节点等于度为 2 的节点 +1，所以选择 B 选项

2、下列数据结构中，不适合采用顺序存储结构的是（）注意此题可以先了解下面的二叉树的存储结构在来做

A. 非完全二叉树

B. 堆

C. 队列

D. 栈

📝 分析：顺序结构存储就是使用数组来存储，它只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。数组只适合存储完全二叉树或者满二叉树。

所以选择 A 选项

3、在具有 2n 个节点的完全二叉树中，叶子节点个数为（）

A. n

B. n+1

C. n-1

D. n/2

📝 分析：

假设度为 0 的个数是 x0，度为 2 的个数是 x2，度为 1 的个数是 x1，那么：

▶ x0 + x1 + x2 = 2n

▶ x0 = x2 + 1

由 x0 = x2 + 1 得到 x2 = x0 - 1

所以 x0 + x1 + x2 = 2n 同 x0 + x1 + x0 - 1 = 2n 同 2x0 + x1 - 1 = 2n

这时再回过头想想完全二叉树中度为 1 的节点最少 0 个，最多就只有 1 个，

所以 x1 = 0 or 1

所以 2x0 + x1 - 1 = 2n 就有 2 种情况：

▶ 2x0 + 0 - 1 = 2n

▶ 2x0 + 1 - 1 = 2n

所以结果一目了然，当 x1 = 0 时，x0为小数，显然不可能；当 x1 = 1 时满足，所以选择 A 选项

4、一棵完全二叉树的节点数为 531 个，那么这棵树的高度为（）

A. 11

B. 10

C. 8

D. 12

📝 分析：

假设完全二叉树的高度是 h，那么：最多有 2^h-1 个节点；最少有 2^(h-1) 个节点

▶ h = 11 时：最多 2047；最少 2014，所以不合理

▶ h = 10 时：最多 1023；最少 512，所以合情合理

▶ h = 8 时：最多 255；最少 128，所以不合理

▶ h = 12 时：最多 4095；最少 2048，所以不合理

所以选择 B 选项

5、一个具有 767 个节点的完全二叉树，其叶子节点个数为 ( )

A. 383

B. 384

C. 385

D. 386

📝 分析：此题类似于第 3 题

假设度为 0 的个数是 x0，度为 2 的个数是 x2，度为 1 的个数是 x1，那么：

▶ x0 + x1 + x2 = 767

▶ x0 = x2 + 1

由 x0 = x2 + 1 得到 x2 = x0 - 1

所以 x0 + x1 + x2 = 767 同 x0 + x1 + x0 - 1 = 767 同 2x0 + x1 - 1 = 767

这时再回过头想想完全二叉树中度为 1 的节点最少 0 个，最多就只有 1 个，

所以 x1 = 0 or 1

所以 2x0 + x1 - 1 = 767 就有 2 种情况：

▶ 2x0 + 0 - 1 = 767

▶ 2x0 + 1 - 1 = 767

所以结果一目了然，当 x1 = 0 时，满足条件；当 x1 = 1 时，不满足条件，所以选择 B 选项

💦 二叉树的存储结构

二叉树一般可以使用两种结构存储，一种顺序结构，一种链式结构：。

1️⃣ 顺序存储：顺序结构存储就是使用数组来存储，它只适合表示完全二叉树，因为不是完全二叉树会有空间的浪费。而现实使用中只有堆才会使用数组来存储，二叉树顺序存储在物理上是一个数组，在逻辑上是一颗二叉树。如下图所见，数组只适合存储完全二叉树或者满二叉树。

❓ 怎么表示下标和树的关系 ❔

下标表示树中父子关系的公式：

左孩子和右孩子

leftchild = parent * 2 + 1

rightchild = parent * 2 + 2

父亲 (这里无论是左孩子还是右孩子都适用于以下公式)

parent = (child - 1) / 2

2️⃣ 链式存储：二叉树的链式存储结构是指用链表来表示一棵二叉树，即用链表来指示元素的逻辑关系。通常的方法是链表中每个结点由三个域组成，数据域和左右指针域，左右指针分别用来给出该结点左孩子和右孩子所在的链的存储地址。链式结构又分为二叉链和三叉链，现阶段本篇文章我们只了解二叉链，在以后的文章内写到高阶数据结构时，如红黑树等才会用到三叉链。

❓ 如何定义二叉链和三叉链 ❔

二叉链只能通过父亲找孩子，类似于单向链表；而三叉链不仅能通过父亲找孩子，还能通过孩子找父亲，类似于双向链表。

typedef int BTDataType;
//二叉链
struct BinaryTreeNode
{
	struct BinaryTreeNode* _pLeft; //指向当前节点的左孩子
	struct BinaryTreeNode* _pRight; //指向当前节点的右孩子	
	BTDataType _data; //当前节点的值域 
}

//三叉链
struct BinaryTreeNode
{
	struct BinaryTreeNode* _pParent; //指向当前节点的父亲
	struct BinaryTreeNode* _pLeft; //指向当前节点的左孩子
	struct BinaryTreeNode* _pRight; //指向当前节点的右孩子
	BTDataType _data; //当前节点的值域
}

三、二叉树顺序结构及实现

💦 二叉树的顺序结构

普通的二叉树是不适合用数组来存储的，因为可能会存在大量的空间浪费。
而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆 (一种二叉树) 使用顺序结构的数组来存储。
需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事，一个是数据结构，一个是操作系统中管理内存的一块区域分段。

❓ 操作系统和数据结构这两门学科中都有栈和堆的概念，如何区分 ❔

💦 堆的概念及结构

如果有一个关键码的集合K = {k₀, k₁, k₃,…，k_n-1}，把它的所有元素按完全二叉树的顺序存储方式存储，在一个一维数组中，并满足：K_i <= K_2*i+1 且 K_i <= K_2*i+2 (K_i >= K_2*i+1 且 K_i >= K_2*i+2) i = 0，1，2…，则称为小堆 (或大堆)。将根节点最大的堆叫做最大堆或大根堆，根节点最小的堆叫做最小堆或小根堆。

❗ 堆的性质 ❕

▶ 堆中某个节点的值总是不大于或不小于其父节点的值；

▶ 堆总是一棵完全二叉树；

---------------------------------------Cut-----------------------------------------

❗ 大(根)堆和小(根)堆 ❕

▶ 大(根)堆，树中所有父亲都大于或者等于孩子，且大堆的根是最大值；

▶ 小(根)堆，树中所有父亲都小于或者等于孩子，且小堆的根是最小值；

💦 堆的概念选择题

1、下列关键字序列为堆的是（）

A. 100, 60, 70, 50, 32, 65

B. 60, 70, 65, 50, 32, 100

C. 65, 100, 70, 32, 50, 60

D. 70, 65, 100, 32, 50, 60

E. 32, 50, 100, 70, 65, 60

F. 50, 100, 70, 65, 60, 32

📝 分析：根据堆的概念分析，A 选项为大根堆；

2、注，请理解下面堆应用的知识再做。已知小根堆为 8, 15, 10, 21, 34, 16, 12，删除关键字 8 之后需重建堆，在此过程中，关键字之间的比较次数是（）

A. 1

B. 2

C. 3

D. 4

📝 分析：

此题考查的是建堆的过程

所以选择 C 选项

3、注，请理解下面堆应用的知识再做。一组记录排序码为 (5 11 7 2 3 17)，则利用堆排序方法建立的初始堆为（）

A. (11 5 7 2 3 17)

B. (11 5 7 2 17 3)

C. (17 11 7 2 3 5)

D. (17 11 7 5 3 2)

E. (17 7 11 3 5 2)

F. (17 7 11 3 2 5)

📝 分析：

此题考查的是堆排序建堆的过程

根据下面堆排序的过程分析，选择 C 选项

4、、注，请理解下面堆应用的知识再做。最小堆 [0, 3, 2, 5, 7, 4, 6, 8]，在删除堆顶元素0之后，其结果是（）

A. [3，2，5，7，4，6，8]

B. [2，3，5，7，4，6，8]

C. [2，3，4，5，7，8，6]

D. [2，3，4，5，6，7，8]

📝 分析：

此题考查的是 Pop 堆顶后，重新建堆的变化

所以选择 C 选项

💦 堆的实现

1、堆向下调整算法

现在我们给出一个数组，逻辑上看做一颗完全二叉树。我们通过从根节点开始的向下调整算法可以把它调整成一个小堆。
向下调整算法有一个前提：左右子树必须是一个堆 (包括大堆和小堆)，才能调整。

❗ 建堆 ❕
有一个随机值的数组，把它理解成完全二叉树，并模拟成堆 (大堆/小堆)

-------------------------------------------------------Cut---------------------------------------------------------

int array[] = {27, 15, 19, 18, 28, 34, 65, 49, 25, 37}

❓ 观察上面这组数据 ❔
根下面的左右子树都是小根堆，其实堆向下调整算法就是针对这种特殊数据结构

-------------------------------------------------------Cut---------------------------------------------------------

❓ 针对于这种类型的数据应该怎么调堆 ❔
思路：从根开始与左右孩子比较，如果孩子比父亲小，则两两交换位置，再继续往下调，直到左右孩子都比父亲大或者调到叶子
具体见下图：

-------------------------------------------------------Cut---------------------------------------------------------

❓ 如果不满足左右子树是堆，怎么调整 ❔

int array[] = {27, 37, 28, 18, 19, 34, 65, 25, 49, 15}

根的左右子树 37、28 都不满足：这里的想法就是先让左右子树先满足；而对于左右子树 37、28 来说又需要让 37 先满足；这样依此类推直至满足堆的条件。那干脆就从倒数的第一棵树，也就是倒数的第一个非叶子节点开始调整

2、堆的创建

❗ 这里从倒数的第一个非叶子节点开始调整 ❕

#include<stdio.h>

//实现父子交换的函数
void Swap(int* px, int* py)
{
	int temp = *px;
	*px = *py;
	*py = temp;
}
//实现调整
void AdjustDown(int* arr, int sz, int parent)
{
	//确定左孩子的下标
	int child = parent * 2 + 1;
	//孩子的下标超出数组的范围就停止
	while (child < sz)
	{
		//确定左右孩子中较小/大的那个
			//左孩子大于右孩子，所以让child记录较小孩子的下标 || (arr[child]<arr[child+1]记录较大孩子的下标)
		if (arr[child] > arr[child + 1] && child + 1 < sz)
		{
			child++; //(当只有一个左孩子时，会越界，且后面使用时会发生非法访问)
		}
		//判断父亲和小孩子
			//小孩子小于父亲，则交换，且继续调整 || (arr[child]>arr[parent]大孩子大于父亲，则交换，且继续调整)
		if (arr[child] < arr[parent])
		{
			Swap(&arr[child], &arr[parent]);
			//迭代
			parent = child;
			//重新确定左孩子的下标(当最后的叶子节点是parent时，这时去确定child会以读的方式越界，但可以不关心)
			child = parent * 2 + 1;
		}
		//小孩子大于父亲，则停止调整
		else
		{
			break;
		}
	}
}
//堆排序 -> 效率更高
void HeapSort(int* arr, int sz)
{
	//建堆
	int i = 0;
	//从最后一棵树开始调整，也就是最后一个节点的父亲
	for (i = (sz - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(arr, sz, i);
	}
}
int main()
{
	//左右子树都为堆
	int arr1[] = { 27, 15, 19, 18, 28, 34, 65, 49, 25, 37 };
	//左右子树都为非堆
	int arr2[] = { 27, 37, 28, 18, 19, 34, 65, 25, 49, 15 };

	HeapSort(arr1, sizeof(arr1) / sizeof(arr1[0]));
	int i = 0;
	for (i = 0; i < sizeof(arr1) / sizeof(arr1[0]); i++)
	{
		printf("%d ", arr1[i]);
	}

	printf("\\n");

	HeapSort(arr2, sizeof(arr2) / sizeof(arr2[0]));
	for (i = 0; i < sizeof(arr2) / sizeof(arr2[0]); i++)
	{
		printf("%d ", arr2[i]);
	}
	return 0;
}

💨 输出结果：

小堆

大堆

3、堆的时间复杂度

❓ 证明建堆的时间复杂度是O(N) ❔

因为堆是完全二叉树，而满二叉树也是完全二叉树，此处为了简化使用满二叉树来证明
(时间复杂度本来看的就是近似值，多几个节点不影响最终结果)

建堆的调用次数用 T(N) 表示：(从最后一个非叶子节点 <也就是倒数第二层> 开始，最坏的情况下：倒数第二层每个节点最多能向下调 1 次；倒数第三层每个节点最多能向下调 2 次；倒数第四层每个节点最多能向下调 3 次；)

每层节点个数 $\\times$ 最坏情况向下调整次数：

T(N) = 2^h-2 $\\times$ 1 + 2^h-3 $\\times$ 2 + … … + 2⁰ $\\times$ (h-1)

这里我们从上至下开始

T(N) = 2⁰ $\\times$ (h - 1) + 2¹ $\\times$ (h - 2) + 2² $\\times$ (h - 3) + 2³ $\\times$ (h - 4) + … … + 2^h-3 $\\times$ 2 + 2^h-2 $\\times$ 1

❗ 错位相减法 ❕

等号左右两边乘个 2 得到一个新公式，再用新公式减去旧的公式，具体见下图

4、堆的插入

先插入一个10到数组的尾上，再进行向上调整算法，直到满足堆。

5、堆的删除

删除堆是删除堆顶的数据，将堆顶的数据和最后一个数据交换换，然后删除数组最后一个数据，再进行向下调整算法。

6、堆的代码实现

⚠ 注意 ⚠

▶ 堆的初始化一般是使用数组进行初始化的

▶ 堆的插入数据不分头插、尾插，将数据插入后，原来堆的属性不变

先放在数组的最后一个位置，再向上调整

▶ 堆的删除数据删除的是堆顶的数据，将数据删除后，原来堆的属性不变

为了效率，将第一个和最后一个元素交换，再减容，然后再调整

❗ 这里需要三个文件 ❕

1️⃣ Heap.h，用于函数的声明

#pragma once

//头
#include<stdio.h>
#include<assert.h>
#include<stdlib.h>
#include<string.h>
#include<stdbool.h>

typedef int HPDataType;

//C++ -> priority_queue 在C++里用的是优先级队列，其底层就是一个堆
//大堆
typedef struct Heap
{
	HPDataType* a;
	int size;
	int capacity;
}HP;
//函数的声明
//交换
void Swap(int* px, int* py);
//向下调整
void AdjustDown(int* arr, int n, int parent);
//向上调整
void AdjustUp(int* a, int child);
//使用数组进行初始化
void HeapInit(HP* php, HPDataType* a, int n);
//回收空间
void HeapDestroy(HP* php);
//插入x，保持它继续是堆
void HeapPush(HP* php, HPDataType x); 
//删除堆顶的数据，保持它继续是堆
void HeapPop(HP* php);
//获取堆顶的数据，也就是最值
HPDataType HeapTop(HP* php);
//判空
bool HeapEmpty(HP* php);
//堆的数据个数
int HeapSize(HP* php);
//输出
void HeapPrint(HP* php);

2️⃣ Heap.c，用于函数的定义

#include"Heap.h"


void Swap(int* px, int* py)
{
	int temp = *px以上是关于仅不到五万字轻松了解二叉树和堆的主要内容，如果未能解决你的问题，请参考以下文章