数据结构TopK问题
Posted 凛音Rinne
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据结构TopK问题相关的知识,希望对你有一定的参考价值。
TopK问题
gitee上有更详尽的代码:堆 + TopK代码
topk
问题就是取n
个数据中,找出最大/最小的前k个数
一、问题分析
1. 方法一
对n
个数据进行排序,再取出前k
个元素
- 时间复杂度:
O(N * logN)
2. 方法二
将n
个数据依次插入大堆
,然后pop堆的根 k 次
- 时间复杂度:
O(N + k * logN)
设有n个数据,有log2(n + 1)层,最坏的情况就是每个数据要向上调整k次
3. 方法三
如果n很大,内存中无法储存,插入堆和排序的方法都不行
-
用前
K
个数建立一个K个数的小堆 -
剩下的
N-K
个数,依次跟堆顶的数据进行比较如果比堆顶数据大,就替换堆顶的数据,再向下调整 -
最后堆里面
K
个数就是最大的K
个数
原理:
在方法二的基础上,大堆实现不了,但小堆却能很好的实现
小堆的优点就是,根是堆中所有元素中最小的元素,我们建立一个小堆,可以存放k
个数,后面n-k
个数字再与之比较,这样就能把小数pop出来,把大数push进去
可能会担心:
-
如果小堆里正好都是我们想要的数怎么办?
那与之比较的
n-k
的数肯定没有比根更大的数了 -
如果这里小堆换成大堆?
那可能根是最大的数字,没法操作了。小的话放进去,那如果不是前k个大的数字就进去了,乱套了
时间复杂度:O(k + (n-k)*logk)
二、TopK实现
本篇在上一章:【数据结构】堆_Rinne’s blog-CSDN博客
写了几个二叉树常用的插口
gitee上有更详尽的代码:堆 + TopK代码
1. 前k个数的小堆
//定义和初始化堆
Heap hp;
HeapInit(&hp);
int i = 0;
//k个数的小堆
for (i = 0; i < k; i++)
{
//插入k个数据
HeapPush(&hp, a[i]);
}
2. n-k个数和根去比较
比它大,替换
再向下调整
//k - n 个数与根作对比
for (i = k; i < n; i++)
{
if (a[i] > HeapTop(&hp))
{
hp.a[0] = a[i];
AdjustDown(hp.a, hp.size, 0);
}
}
3. 打印堆
//打印堆
void HeapPrint(Heap* hp, int n)
{
int i = 0;
for (i = 0; i < n; i++)
{
printf("%d ", hp->a[i]);
}
printf("\\n");
}
三、测试
测试代码:
这里用到了srand函数和time函数以及rand函数,用来生成随机数值
更多有关随机数生成的详细知识可以参考文章:C语言随机数生成教程
void TestTopk()
{
//一共有20个数字
int n = 20;
int* a = (int*)malloc(sizeof(int) * n);
assert(a);
srand((unsigned int)time(NULL));
for (int i = 0; i < n; ++i)
{
a[i] = rand() % 10;
}
// 再去设置5个比10大的数
a[5] = 10 + 1;
a[11] = 10 + 2;
a[15] = 10 + 3;
a[1] = 10 + 4;
a[10] = 10 + 5;
PrintTopK(a, n, 5);
}
测试结果:
下一篇会讲解堆排序的问题,可能感觉和topk相似,但topk只是找了前k个大的数,并没有排序
以上是关于数据结构TopK问题的主要内容,如果未能解决你的问题,请参考以下文章
数据结构初阶第七篇——二叉树的顺序结构的应用(堆排序+TOPK问题)
Top K Frequent Elements 之 topk问题