快速排序线性时间?
Posted
技术标签:
【中文标题】快速排序线性时间?【英文标题】:Quicksort linear time? 【发布时间】:2021-06-14 01:01:34 【问题描述】:我在做一个快速排序(qsort from c++ STL)算法的分析,代码是:
#include <iostream>
#include <fstream>
#include <ctime>
#include <bits/stdc++.h>
#include <cstdlib>
#include <iomanip>
#define MIN_ARRAY 256000
#define MAX_ARRAY 1000000000
#define MAX_RUNS 100
using namespace std;
int* random_array(int size)
int* array = new int[size];
for (int c = 0; c < size; c++)
array[c] = rand()*rand() % 1000000;
return array;
int compare(const void* a, const void* b)
return (*(int*)a - *(int*)b);
int main()
ofstream fout;
fout.open("data.csv");
fout << "array size,";
srand(time(NULL));
int size;
int counter = 1;
std::clock_t start;
double duration;
for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2)
fout << size << ",";
fout << "\n";
for (counter = 1; counter <= MAX_RUNS; counter++)
fout << "run " << counter << ",";
for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2)
try
int* arr = random_array(size);
start = std::clock();
qsort(arr, size, sizeof(int), compare);
duration = (std::clock() - start) / (double)CLOCKS_PER_SEC;
//cout << "size: " << size << " duration: " << duration << '\n';
fout << setprecision(15) << duration << ",";
delete[] arr;
catch (bad_alloc)
cout << "bad alloc caught, size: " << size << "\n";
fout << "bad alloc,";
fout << "\n";
cout << counter << "% done\n";
fout.close();
return 0;
当我运行它时,数据完全呈线性返回:
到底发生了什么?快速排序不是 O(nlogn) 吗?
以下是使用的数组大小以及所有 100 次运行的每个大小的平均时间(以秒为单位):
arraysize,256000,512000,1024000,2048000,4096000,8192000,16384000,32768000,65536000,131072000,262144000,524288000
average,0.034,0.066,0.132,0.266,0.534,1.048,2.047,4.023,7.951,15.833,31.442
【问题讨论】:
我感觉rand() * rand()
到处都是。
请注意rand()*rand()
很容易导致有符号整数溢出的未定义行为。
您的比较功能看起来也坏了。你为什么用return (*(int*)a - *(int*)b);
而不是return (*(int*)a < *(int*)b);
?
感谢大家的帮助!在我的机器上,rand_max 只有 31000 左右,所以 rand()*rand() 不应该溢出。对于比较功能,我取自cplusplus.com/reference/cstdlib/qsort。它只是一个学校项目,我认为 qsort 会更容易分析。再次感谢大家!
@NathanOliver 实际上,qsort 的比较功能应该按照 OP 的方式工作。是的,有点奇怪,但来自 C 的保留
【参考方案1】:
平均而言,确实是 O(N log N)。
只是 f(N) = N log(N) 的图看起来非常线性。
绘制图表并亲自查看,或参考以下内容。这个平均时间是算法如此聪明的原因:
【讨论】:
值得注意的是,在 OP 的图中,它基本上从 x=5m 变为 x=30m。还有lg2(5m)=22.25
和lg2(30m)=24.8
,所以该图看起来非常类似于线性方程y=23.5x
是的。并感谢您的编辑;-)。对我来说关键是 df / dN 是 1 + log N。换句话说,梯度实际上是恒定的。
如果您使用更大范围的最大 X,然后将蓝线设为 y=10X 而不是 y=x,您的示例图可能会更明显。
实际上,时间几乎是线性的,而不是 NLogN,因为从 [0:1,000,000) 中有限数量的随机整数中重复聚类。
@doug:我们必须同意不同意。不介意采样。事实仍然是,我认为大多数人都没有意识到 N log(N) 情节有多直——而是他们希望它是 N 和 N ** 2 之间的 1/2。【参考方案2】:
斜率看起来呈线性的部分原因是 Log(N) 的缓慢变化,但主要原因是填充数组的随机数限制为 [0-1,000,000)。这会导致大型数组大部分被重复填充,并且随着 qsort 算法下降到更小的组,排序变得更快。当数组大小从 10,000,000 增加到 20,000,000 时,重复次数平均会翻倍,因此排序轨迹几乎完全是线性的。
从下图中可以看出:
橙色和灰色线是无约束和约束数组的执行时间。黄线和蓝线从 0 到两次运行的终点是线性的。一次运行将整数从原始代码限制为 [0-1000000)。另一个不受 2^31 个正整数的限制。请注意无约束排序需要多长时间,因为对不断增加的重复组的排序非常快。
这是显示不受约束的执行时间具有明显曲线的代码修改,正如人们对 NLogN 所期望的那样。
#include <iostream>
#include <fstream>
#include <ctime>
#include <cstdlib>
#include <iomanip>
#define MIN_ARRAY 256000
#define MAX_ARRAY 1000000000
#define MAX_RUNS 100
using namespace std;
int* random_array(int size)
int* array = new int[size];
for (int c = 0; c < size; c++)
// array[c] = rand() * rand() % 1000000;
// Note that as the array size grows beyond 1000000
// this will produce increasing numbers of duplicates
// which will shorten the time when the subsets get small
array[c] = (rand() << 16) | (rand() << 1) | (rand() & 1);
// Note that in this example/system, RAND_MAX==0x7fff
// get a random positive int distributed in the set of positive, 32 bit ints
return array;
int compare(const void* a, const void* b)
return (*(int*)a - *(int*)b);
int main()
auto x = RAND_MAX;
ofstream fout;
fout.open("data.csv");
fout << "array size,";
srand(time(NULL));
int size;
int counter = 1;
std::clock_t start;
double duration;
for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2)
fout << size << ",";
fout << "\n";
for (counter = 1; counter <= MAX_RUNS; counter++)
fout << "run " << counter << ",";
for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2)
try
int* arr = random_array(size);
start = std::clock();
qsort(arr, size, sizeof(int), compare);
duration = (std::clock() - start) / (double)CLOCKS_PER_SEC;
cout << "size: " << size << " duration: " << duration << '\n';
fout << setprecision(15) << duration << ",";
delete[] arr;
catch (bad_alloc)
cout << "bad alloc caught, size: " << size << "\n";
fout << "bad alloc,";
fout << "\n";
cout << counter << "% done\n";
fout.close();
return 0;
【讨论】:
这是一个很好的分析。有一个“你迟到了,但这是更好的答案”投票。以上是关于快速排序线性时间?的主要内容,如果未能解决你的问题,请参考以下文章