为啥堆上的分配比栈上的分配快？

Posted 2023-02-21

技术标签:

【中文标题】为啥堆上的分配比栈上的分配快？【英文标题】：Why is allocation on the heap faster than allocation on the stack?为什么堆上的分配比栈上的分配快？ 【发布时间】：2015-10-15 07:35:48 【问题描述】：

就我对资源管理的了解而言，在堆上分配东西（操作员 new）应该总是比在堆栈上分配（自动存储）慢，因为堆栈是基于 LIFO 的结构，因此它需要最少的簿记，并且要分配的下一个地址的指针是微不足道的。

到目前为止，一切都很好。现在看下面的代码：

/* ...includes... */

using std::cout;
using std::cin;
using std::endl;

int bar()  return 42; 

int main()

    auto s1 = std::chrono::steady_clock::now();
    std::packaged_task<int()> pt1(bar);
    auto e1 = std::chrono::steady_clock::now();

    auto s2 = std::chrono::steady_clock::now();
    auto sh_ptr1 = std::make_shared<std::packaged_task<int()> >(bar);
    auto e2 = std::chrono::steady_clock::now();

    auto first = std::chrono::duration_cast<std::chrono::nanoseconds>(e1-s1);
    auto second = std::chrono::duration_cast<std::chrono::nanoseconds>(e2-s2);

    cout << "Regular: " << first.count() << endl
         << "Make shared: " << second.count() << endl;

    pt1();
    (*sh_ptr1)();

    cout << "As you can see, both are working correctly: " 
         << pt1.get_future().get() << " & " 
         << sh_ptr1->get_future().get() << endl;

    return 0;

结果似乎与上面解释的内容相矛盾：

常规：6131

共享：843

如您所见，两者都在工作正确：42 & 42

程序以退出代码结束：0

在第二次测量中，除了操作符new的调用之外，std::shared_ptr（auto sh_ptr1）的构造函数必须完成。我似乎无法理解为什么这比常规分配更快。

对此有何解释？

【问题讨论】：

您是否尝试交换操作顺序？ 【参考方案1】：

问题在于第一次调用std::packaged_task 的构造函数负责初始化每个线程状态的负载，然后不公平地归因于pt1。这是基准测试（尤其是微基准测试）的常见问题，可以通过预热来缓解；尝试阅读How do I write a correct micro-benchmark in Java?

如果我复制您的代码但先运行这两个部分，则结果与系统时钟分辨率的限制相同。这展示了微基准测试的另一个问题，即您应该多次运行小型测试以准确测量总时间。

预热并运行每个部分 1000 次，我得到以下信息 (example)：

Regular: 132.986
Make shared: 211.889

差异（大约 80ns）非常符合 malloc takes 100ns per call 的经验法则。

【讨论】：

【参考方案2】：

这是您的微基准有问题：如果您交换测量时间的顺序，您会得到相反的结果 (demo)。

看起来std::packaged_task 构造函数的第一次调用造成了很大的打击。添加一个不定时的

std::packaged_task<int()> ignore(bar);

在测量时间之前解决了这个问题 (demo)：

常规：505 共享：937

【讨论】：

【参考方案3】：

我tried your example at ideone 得到了和你类似的结果：

Regular: 67950 
Make shared: 696

然后我颠倒了测试的顺序：

auto s2 = std::chrono::steady_clock::now();
auto sh_ptr1 = std::make_shared<std::packaged_task<int()> >(bar);
auto e2 = std::chrono::steady_clock::now();

auto s1 = std::chrono::steady_clock::now();
std::packaged_task<int()> pt1(bar);
auto e1 = std::chrono::steady_clock::now();

发现了相反的结果：

Regular: 548
Make shared: 68065

所以这不是堆栈与堆的区别，而是第一次和第二次调用的区别。也许你需要看看std::packaged_task的内部结构。

【讨论】：

以上是关于为啥堆上的分配比栈上的分配快？的主要内容，如果未能解决你的问题，请参考以下文章

进程环境详解---堆分配mallocfree函数详解

为啥函数执行后没有释放堆上的元素？

go的值类型和引用类型2——内存分配规则

堆上分配的数据访问速度是不是比栈上分配的数据慢？

Go 语言中的变量究竟是分配在栈上还是分配在堆上？