快速排序线性时间?

Posted

技术标签:

【中文标题】快速排序线性时间?【英文标题】:Quicksort linear time? 【发布时间】:2021-06-14 01:01:34 【问题描述】:

我在做一个快速排序(qsort from c++ STL)算法的分析,代码是:

#include <iostream>
#include <fstream>
#include <ctime>
#include <bits/stdc++.h>
#include <cstdlib>
#include <iomanip>

#define MIN_ARRAY 256000
#define MAX_ARRAY 1000000000
#define MAX_RUNS 100

using namespace std;

int* random_array(int size) 
    int* array = new int[size];

    for (int c = 0; c < size; c++) 
        array[c] = rand()*rand() % 1000000;
    

    return array;


int compare(const void* a, const void* b)  
    return (*(int*)a - *(int*)b); 


int main()

    ofstream fout;
    fout.open("data.csv");
    fout << "array size,";
    srand(time(NULL));
    int size;
    int counter = 1;

    std::clock_t start;
    double duration;

    for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) 
        fout << size << ",";
    
    fout << "\n";

    for (counter = 1; counter <= MAX_RUNS; counter++) 
        fout << "run " << counter << ",";
        for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) 
            try 
                int* arr = random_array(size);

                start = std::clock();
                qsort(arr, size, sizeof(int), compare);
                duration = (std::clock() - start) / (double)CLOCKS_PER_SEC;

                //cout << "size: " << size << " duration: " << duration << '\n';
                fout << setprecision(15) << duration << ",";

                delete[] arr;
            
            catch (bad_alloc) 
                cout << "bad alloc caught, size: " << size << "\n";
                fout << "bad alloc,";
            

        
        fout << "\n";
        cout << counter << "% done\n";
    
    
    fout.close();
    return 0;

当我运行它时,数据完全呈线性返回:

到底发生了什么?快速排序不是 O(nlogn) 吗?

以下是使用的数组大小以及所有 100 次运行的每个大小的平均时间(以秒为单位):

arraysize,256000,512000,1024000,2048000,4096000,8192000,16384000,32768000,65536000,131072000,262144000,524288000
average,0.034,0.066,0.132,0.266,0.534,1.048,2.047,4.023,7.951,15.833,31.442

【问题讨论】:

我感觉rand() * rand() 到处都是。 请注意rand()*rand() 很容易导致有符号整数溢出的未定义行为。 您的比较功能看起来也坏了。你为什么用return (*(int*)a - *(int*)b); 而不是return (*(int*)a &lt; *(int*)b); 感谢大家的帮助!在我的机器上,rand_max 只有 31000 左右,所以 rand()*rand() 不应该溢出。对于比较功能,我取自cplusplus.com/reference/cstdlib/qsort。它只是一个学校项目,我认为 qsort 会更容易分析。再次感谢大家! @NathanOliver 实际上,qsort 的比较功能应该按照 OP 的方式工作。是的,有点奇怪,但来自 C 的保留 【参考方案1】:

平均而言,确实是 O(N log N)

只是 f(N) = N log(N) 的图看起来非常线性。

绘制图表并亲自查看,或参考以下内容。这个平均时间是算法如此聪明的原因:

【讨论】:

值得注意的是,在 OP 的图中,它基本上从 x=5m 变为 x=30m。还有lg2(5m)=22.25lg2(30m)=24.8,所以该图看起来非常类似于线性方程y=23.5x 是的。并感谢您的编辑;-)。对我来说关键是 df / dN 是 1 + log N。换句话说,梯度实际上是恒定的。 如果您使用更大范围的最大 X,然后将蓝线设为 y=10X 而不是 y=x,您的示例图可能会更明显。 实际上,时间几乎是线性的,而不是 NLogN,因为从 [0:1,000,000) 中有限数量的随机整数中重复聚类。 @doug:我们必须同意不同意。不介意采样。事实仍然是,我认为大多数人都没有意识到 N log(N) 情节有多直——而是他们希望它是 N 和 N ** 2 之间的 1/2。【参考方案2】:

斜率看起来呈线性的部分原因是 Log(N) 的缓慢变化,但主要原因是填充数组的随机数限制为 [0-1,000,000)。这会导致大型数组大部分被重复填充,并且随着 qsort 算法下降到更小的组,排序变得更快。当数组大小从 10,000,000 增加到 20,000,000 时,重复次数平均会翻倍,因此排序轨迹几乎完全是线性的。

从下图中可以看出:

橙色和灰色线是无约束和约束数组的执行时间。黄线和蓝线从 0 到两次运行的终点是线性的。一次运行将整数从原始代码限制为 [0-1000000)。另一个不受 2^31 个正整数的限制。请注意无约束排序需要多长时间,因为对不断增加的重复组的排序非常快。

这是显示不受约束的执行时间具有明显曲线的代码修改,正如人们对 NLogN 所期望的那样。

#include <iostream>
#include <fstream>
#include <ctime>
#include <cstdlib>
#include <iomanip>

#define MIN_ARRAY 256000
#define MAX_ARRAY 1000000000
#define MAX_RUNS 100

using namespace std;

int* random_array(int size) 
    int* array = new int[size];

    for (int c = 0; c < size; c++) 
        // array[c] = rand() * rand() % 1000000;
            // Note that as the array size grows beyond 1000000
            // this will produce increasing numbers of duplicates
            // which will shorten the time when the subsets get small
    
        array[c] = (rand() << 16) | (rand() << 1) | (rand() & 1);
            // Note that in this example/system, RAND_MAX==0x7fff
            // get a random positive int distributed in the set of positive, 32 bit ints
    

    return array;


int compare(const void* a, const void* b) 
    return (*(int*)a - *(int*)b);


int main()

    auto x = RAND_MAX;
    ofstream fout;
    fout.open("data.csv");
    fout << "array size,";
    srand(time(NULL));
    int size;
    int counter = 1;

    std::clock_t start;
    double duration;

    for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) 
        fout << size << ",";
    
    fout << "\n";

    for (counter = 1; counter <= MAX_RUNS; counter++) 
        fout << "run " << counter << ",";
        for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) 
            try 
                int* arr = random_array(size);

                start = std::clock();
                qsort(arr, size, sizeof(int), compare);
                duration = (std::clock() - start) / (double)CLOCKS_PER_SEC;

                cout << "size: " << size << " duration: " << duration << '\n';
                fout << setprecision(15) << duration << ",";

                delete[] arr;
            
            catch (bad_alloc) 
                cout << "bad alloc caught, size: " << size << "\n";
                fout << "bad alloc,";
            

        
        fout << "\n";
        cout << counter << "% done\n";
    

    fout.close();
    return 0;

【讨论】:

这是一个很好的分析。有一个“你迟到了,但这是更好的答案”投票。

以上是关于快速排序线性时间?的主要内容,如果未能解决你的问题,请参考以下文章

线性时间排序

常见排序之近线性排序

线性时间排序

线性时间排序

线性时间排序(python)

排序线性排序