C程序内存分配

Posted 2021-03-05 alix-1988

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了C程序内存分配相关的知识，希望对你有一定的参考价值。

其中需要注意的是：代码段、数据段、BSS段在程序编译期间由编译器分配空间，在程序启动时加载，由于未初始化的全局变量存放在BSS段，已初始化的全局变量存放在数据段，所以程序中应该尽量少的使用全局变量以节省程序编译和启动时间；栈和堆在程序运行中由系统分配空间。

进程

从操作系统的角度简单介绍一下进程。进程是占有资源的最小单位，这个资源当然包括内存。在现代操作系统中，每个进程所能访问的内存是互相独立的（一些交换区除外）。而进程中的线程所以共享进程所分配的内存空间。

在操作系统的角度来看，进程=程序+数据+PCB(进程控制块)。

代码区（text）:用来存放CPU执行的机器指令（machine instructions），也有可能包含一些只读的常数变量，例如字符串常量等。通常，代码区是可共享的（即另外的执行程序可以调用它），因为对于频繁被执行的程序，只需要在内存中有一份代码即可。这部分区域的大小在程序运行之前就已经确定，通常是只读的，使其只读的原因是防止程序意外地修改了它的指令。另外，代码区还规划了局部变量的相关信息。

全局数据区（静态区）（static）：全局变量和静态变量的存储是放在一块的，初始化的全局变量和静态变量在一块区域（数据区），未初始化的全局变量和静态变量在相邻的另一块区域（BSS区）。另外文字常量区，常量字符串就是放在这里，程序结束后由系统释放。

数据区（全局初始化数据区 data）：该区包含了在程序中明确被初始化的全局变量、静态变量（包括全局静态变量和局部静态变量）和常量数据（如字符串常量）。
BSS区（未初始化数据区。）：存入的是全局未初始化变量。BSS这个叫法是根据一个早期的汇编运算符而来，这个汇编运算符标志着一个块的开始。BSS区的数据在程序开始执行之前被内核初始化为0或者空指针（NULL）。llinux环境下可以用size命令 查看C程序的存储空间布局，可以看出，此可执行程序在存储时（没有调入到内存）分为代码区（text）、数据区（data）和未初始化数据区（bss）3个部分。

一个正在运行着的C编译程序占用的内存分为代码区、初始化数据区、未初始化数据区、堆区和栈区5个部分。

栈存储区：

（1）由编译器自动分配释放，通常存放程序临时创建的局部变量（但不包括static声明的变量，static意味着在数据段中存放变量），即函数括大括号 “{ }” 中定义的变量，其中还包括函数调用时其形参，调用后的返回值等。

（2）调用原理：每当一个函数被调用，该函数返回地址和一些关于调用的信息（比如某些寄存器的内容），被存储到栈区。然后这个被调用的函数再为它的自动变量和临时变量在栈区上分配空间，这就是C实现函数递归调用的方法。每执行一次递归函数调用，一个新的栈框架就会被使用，这样这个新实例栈里的变量就不会和该函数的另一个实例栈里面的变量混淆

（3）栈是由高地址向低地址扩展的数据结构，有先进后出的特点，即依次定义两个局部变量，首先定义的变量的地址是高地址，其次变量的地址是低地址。函数参数进栈的顺序是从右向左（主要是为了支持可变长参数形式）。

（4）最后栈还具有“小内存、自动化、可能会溢出”的特点。栈顶的地址和栈的最大容量一般是系统预先规定好的，通常不会太大。由于栈中主要存放的是局部变量，而局部变量的占用的内存空间是其所在的代码段或函数段结束时由系统回收重新利用，所以栈的空间是循环利用自动管理的，一般不需要人为操作。如果某次局部变量申请的空间超过栈的剩余空间时就有可能出现 “栈的溢出”，进而导致意想不到的后果。所以一般不宜在栈中申请过大的空间，比如长度很大的数组、递归调用重复次数很多的函数等等。

堆存储区：

(1)通常存放程序运行中动态分配的存储空间。它的大小，并不固定，可动态扩张或缩放。当进程调用malloc/free等函数分配内存时，新分配的内存就被动态添加到堆上（堆被扩张）/释放的内存从堆中被提出（堆被缩减）。

(2)堆与数据结构中的堆是两回事，分配方式倒是类似于链表。

(3)堆是低地址向高地址扩展的数据结构，是一块不连续的内存区域。在标准C语言上，使用malloc等内存分配函数是从堆中分配内存的，在Objective-C中，使用new创建的对象也是从堆中分配内存的。

(4)堆具有“大内存、手工分配管理、申请大小随意、可能会泄露”的特点，堆内存是操作系统划分给堆管理器来管理的，管理器向使用者（用户进程）提供API（malloc和free等）来使用堆内存。需要程序员手动分配释放，如果程序员在使用完申请后的堆内存却没有及时把它释放掉，那么这块内存就丢失了（进程自身认为该内存没被使用，但是在堆内存记录中该内存仍然属于这个进程，所以当需要分配空间时又会重新去申请新的内存而不是重复利用这块内存），就是我们常说的-内存泄漏，所以内存泄漏指的是堆内存被泄露了。

之所以分成这么多个区域，主要基于以下考虑：

一个进程在运行过程中，代码是根据流程依次执行的，只需要访问一次，当然跳转和递归有可能使代码执行多次，而数据一般都需要访问多次，因此单独开辟空间以方便访问和节约空间。
临时数据及需要再次使用的代码在运行时放入栈区中，生命周期短。
全局数据和静态数据有可能在整个程序执行过程中都需要访问，因此单独存储管理。
堆区由用户自由分配，以便管理。

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

C语言函数返回值实现机制

一般的来说，函数是可以返回局部变量的。局部变量的作用域只在函数内部，在函数返回后，局部变量的内存已经释放了，因此如果函数返回的是局部变量的值，不涉及地址，程序不会出错。但是如果返回的是局部变量的地址(指针)的话，程序运行后会出错。因为函数只是把指针复制后返回了，但是指针指向的内容已经被释放了，这样指针指向的内容就是不可预料的内容，调用就会出错，准确的来说：

函数不能通过返回指向栈内存的指针(仅指动态栈，返回堆存可行)

下面以函数返回局部变量的指针举几个典型的例子来说明:

1. 返回字符串常量指针

#include <stdio.h>
char *returnStr(){
char *p = "hello world!";
return p;
}
int main(void){
char *str = NULL;
str = returnStr();
printf("%s ", str);
return 0;
}

这个没有任何问题，因为"hello world!"是一个字符串常量，存放在只读数据段，把该字符串常量存放的只读数据段的首地址赋值给了指针，所以returnStr函数退出时，该该字符串常量所在内存不会被回收，故能够通过指针顺利无误的访问。

2. 返回栈指针

#include <stdio.h>
char *returnStr(){
char p[] = "hello world!";
return p;
}
int main(){
char *str = NULL;
str = returnStr();
printf("%s ", str);
return 0;
}

"hello world!"是局部变量存放在栈中，当returnStr函数退出时，栈要清空，局部变量的内存也被清空了，所以这时的函数返回的是一个已被释放的内存地址，所以有可能打印出来的是乱码。

3. 返回局部变量及其指针

可以返回的情况: 局部变量(仅指变量，不包括指针，无论static还是auto)、静态局部变量的指针

不可返回情况: 局部变量的指针(无static限定词，默认auto型)

// 返回非静态局部变量
int f1(){
int a;
....
return a; //允许
}
// 返回静态局部变量
int f2(){
static int a;
....
return a; //允许
}
// 返回非静态局部变量指针
int *f3(){
int a;
....
return &a; //无意义，不应该这样做
}
// 返回静态局部变量指针
int *f4(){
static int a;
....
return &a; //允许
}

局部变量也分局部自动变量和局部静态变量，由于a返回的是值，因此返回一个局部变量是可以的，无论自动还是静态，因为这时候返回的是这个局部变量的值，但不应该返回指向局部自动变量的指针，因为函数调用结束后该局部自动变量被抛弃，这个指针指向一个不再存在的对象，是无意义的。但可以返回指向局部静态变量的指针，因为静态变量的生存期从定义起到程序结束。

4. 返回静态栈指针