数据结构TopK问题

Posted 凛音Rinne

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据结构TopK问题相关的知识,希望对你有一定的参考价值。

TopK问题

gitee上有更详尽的代码:堆 + TopK代码



topk问题就是取n个数据中,找出最大/最小前k个数

一、问题分析

1. 方法一

n个数据进行排序,再取出前k个元素

  • 时间复杂度:O(N * logN)

2. 方法二

n个数据依次插入大堆,然后pop堆的根 k 次

  • 时间复杂度:O(N + k * logN)

设有n个数据,有log2(n + 1)层,最坏的情况就是每个数据要向上调整k次


3. 方法三

如果n很大,内存中无法储存,插入堆和排序的方法都不行

  • 用前K个数建立一个K个数的小堆

  • 剩下的N-K个数,依次跟堆顶的数据进行比较如果比堆顶数据大,就替换堆顶的数据,再向下调整

  • 最后堆里面K个数就是最大的K个数

原理:

在方法二的基础上,大堆实现不了,但小堆却能很好的实现

小堆的优点就是,根是堆中所有元素中最小的元素,我们建立一个小堆,可以存放k个数,后面n-k个数字再与之比较,这样就能把小数pop出来,把大数push进去

可能会担心:

  • 如果小堆里正好都是我们想要的数怎么办?

    那与之比较的n-k的数肯定没有比根更大的数了

  • 如果这里小堆换成大堆?

    那可能根是最大的数字,没法操作了。小的话放进去,那如果不是前k个大的数字就进去了,乱套了

时间复杂度:O(k + (n-k)*logk)


二、TopK实现

本篇在上一章:【数据结构】堆_Rinne’s blog-CSDN博客

写了几个二叉树常用的插口

gitee上有更详尽的代码:堆 + TopK代码

1. 前k个数的小堆

//定义和初始化堆
Heap hp;
HeapInit(&hp);

int i = 0;
//k个数的小堆
for (i = 0; i < k; i++)
{
	//插入k个数据
	HeapPush(&hp, a[i]);
}

2. n-k个数和根去比较

比它大,替换

向下调整

//k - n 个数与根作对比
for (i = k; i < n; i++)
{
	if (a[i] > HeapTop(&hp))
	{
		hp.a[0] = a[i];
		AdjustDown(hp.a, hp.size, 0);
	}
}


3. 打印堆

//打印堆
void HeapPrint(Heap* hp, int n)
{
	int i = 0;
	for (i = 0; i < n; i++)
	{
		printf("%d ", hp->a[i]);
	}
	printf("\\n");
}

三、测试

测试代码:

这里用到了srand函数和time函数以及rand函数,用来生成随机数值

更多有关随机数生成的详细知识可以参考文章:C语言随机数生成教程

void TestTopk()
{
	//一共有20个数字
	int n = 20;
	int* a = (int*)malloc(sizeof(int) * n);
	assert(a);

	srand((unsigned int)time(NULL));
	
	for (int i = 0; i < n; ++i)
	{
		a[i] = rand() % 10;
	}
	// 再去设置5个比10大的数
	a[5] = 10 + 1;
	a[11] = 10 + 2;
	a[15] = 10 + 3;
	a[1] = 10 + 4;
	a[10] = 10 + 5;

	PrintTopK(a, n, 5);


}

测试结果:


下一篇会讲解堆排序的问题,可能感觉和topk相似,但topk只是找了前k个大的数,并没有排序

以上是关于数据结构TopK问题的主要内容,如果未能解决你的问题,请参考以下文章

堆排序和TopK问题

数据结构初阶第七篇——二叉树的顺序结构的应用(堆排序+TOPK问题)

从海量数据中寻找出topK的最优算法代码

Top K Frequent Elements 之 topk问题

Top K Frequent Elements 之 topk问题

TopK问题