C语言中程序的编译（预处理操作）+链接详解（详细介绍程序预编译过程）

Posted 2023-04-07 _Fiora

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了C语言中程序的编译（预处理操作）+链接详解（详细介绍程序预编译过程）相关的知识，希望对你有一定的参考价值。

文章目录

1. 前言
2. 翻译环境和运行环境
- 2.1 翻译环境
- 2.2 运行环境
3. 预处理详解
4. 条件编译
5. 结尾

1. 前言

今天我们来学习C语言中程序的编译和链接是如何进行的。
在ANSI C的任何一种实现中，存在两个不同的环境。
第1种是翻译环境，在这个环境中源代码被转换为可执行的机器指令。第2种是执行环境，它用于实际执行代码。
本文主要是介绍预编译阶段的相关知识。

2. 翻译环境和运行环境

2.1 翻译环境

1.组成一个程序的每个源文件通过编译过程分别转换成目标代码（object code）。
2.每个目标文件由链接器（linker）捆绑在一起，形成一个单一而完整的可执行程序。
3.链接器同时也会引入标准C函数库中任何被该程序所用到的函数，而且它可以搜索程序员个人的程序库，将其需要的函数也链接到程序中。

如下图所示：

而编译本身又分为三个阶段 - 预编译，编译，汇编
预编译（预处理） - 1.头文件的包含，#include是预处理指令 2.#define定义符号的替换，#define是预处理指令 3.删除注释，最终生成.i文件
编译 - 把c语言代码翻译成汇编代码，1.语法分析 2.词法分析 3.语义分析 4.符号汇总，最终生成.s文件
汇编 - 把汇编指令翻译成二进制的指令，形成符号表，最终生成.o文件
链接 - 1.合并段表 2.符号表的合并和重定位

2.2 运行环境

程序执行的过程：
1.程序必须载入内存中。在有操作系统的环境中：一般这个由操作系统完成。
在独立的环境中，程序的载入必须由手工安排，也可能是通过可执行代码置入只读内存来完成。
2.程序的执行便开始。接着便调用main函数。
3.开始执行程序代码。这个时候程序将使用一个运行时堆栈（stack），存储函数的局部变量和返回地址。程序同时也可以使用静态（static）内存，存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。
4.终止程序。正常终止main函数；也有可能是意外终止。

3. 预处理详解

接下来主要介绍预处理阶段的相关操作。

3.1 预定义符号

预定义符号 - 这些预定义符号都是语言内置的。
FILE 进行编译的源文件
LINE 文件当前的行号
DATE 文件被编译的日期
TIME 文件被编译的时间
STDC 如果编译器遵循ANSI C，其值为1，否则未定义

使用方法：

int main()

	int i = 0;
	for (i = 0; i < 5; i++)
	
		printf("name:%s file:%s line:%d date:%s time:%s i=%d\\n", __func__, __FILE__, __LINE__, __DATE__, __TIME__, i);
	
	return 0;

3.2 #define定义的标识符常量和宏

3.2.1 #define定义的标识符常量

#define的语法是：#define name stuff
如：#define MAX 1000 #define reg register
如果定义的 stuff过长，可以分成几行写，除了最后一行外，每行的后面都加一个反斜杠(续行符)。

使用方法：

#define MAX 10
#define STR "abcdef"

int main()

	int n = MAX;
	char* str = STR;
	printf("%d\\n", n);
	printf("%s\\n", str);
	return 0;

3.2.2 #define定义的宏

#define 机制包括了一个规定，允许把参数替换到文本中，这种实现通常称为宏（macro）或定义宏（definemacro）。
#define name( parament-list ) stuff
注意：参数列表的左括号必须与name紧邻。如果两者之间有任何空白存在，参数列表就会被解释为stuff的一部分。
用于对数值表达式进行求值的宏定义都应该用这种方式加上括号，避免在使用宏时由于参数中的操作符或邻近操作符之间不可预料的相互作用。

使用方法：

#define ADD(x,y) ((x)+(y))
int main()

	int a = 10;
	int b = 20;
	int c = ADD(a, b);
	printf("%d\\n", c);
	return 0;

3.2.3 #define替换规则

在程序中扩展#define定义符号和宏时，需要涉及几个步骤。
1.在调用宏时，首先对参数进行检查，看看是否包含任何由#define定义的符号。如果是，它们首先被替换。
2.替换文本随后被插入到程序中原来文本的位置。对于宏，参数名被他们的值替换。
3.最后，再次对结果文件进行扫描，看它是否包含任何由#define定义的符号。如果是，就重复上述处理过程。
注意：
1.宏参数和#define定义中可以出现其他#define定义的变量。但是对于宏，不能出现递归。
2.当预处理器搜索#define定义的符号的时候，字符串常量的内容并不被搜索。

3.2.4 #和##

使用 # ，把一个宏参数变成对应的字符串
使用##，可以把位于##两边的符号合成一个符号。它允许宏定义从分离的文本片段创建标识符。
注：这样的连接必须产生一个合法的标识符。否则其结果就是未定义的。

使用方法：

#define PRINT(VALUE,FORMAT) printf("the value of " #VALUE " is " FORMAT "\\n", VALUE);

int main()

	int a = 10;
	int b = 20;
	PRINT(a+b, "%d");
	return 0;

3.2.5 带副作用的宏参数

当宏参数在宏的定义中出现超过一次的时候，如果参数带有副作用，那么你在使用这个宏的时候就可能出现危险，导致不可预测的后果。副作用就是表达式求值的时候出现的永久性效果。
例如：
x + 1;//不带副作用
x++;//带有副作用

例如如下代码：

#define MAX(a,b) ((a) > (b) ? (a) : (b))

int main()

	int x = 5;
	int y = 8;
	int z = MAX(x++, y++);

	printf("%d %d %d\\n", x, y, z);
	return 0;

结果是：

3.3 宏和函数的对比

优点：
1.用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需要的时间更多。
所以宏比函数在程序的规模和速度方面更胜一筹。
2.更为重要的是函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使用。
反之宏可以适用于整形、长整型、浮点型等类型。宏是类型无关的。

缺点：
1.每次使用宏的时候，一份宏定义的代码将插入到程序中。除非宏比较短，否则可能大幅度增加程序的长度。
2.宏是没法调试的。
3.宏由于类型无关，也就不够严谨。
4.宏可能会带来运算符优先级的问题，导致程序容易出错。

以下是详细对比：

代码长度：
#define定义的宏：每次使用时，宏代码都会被插入到程序中。除了非常小的宏之外，程序的长度会大幅度增长。
函数：函数代码只出现于一个地方；每次使用这个函数时，都调用那个地方的同一份代码。

执行速度：
#define定义的宏：更快
函数：存在函数的调用和返回的额外开销，所以相对慢一些

操作符优先级：
#define定义的宏：宏参数的求值是在所有周围表达式的上下文环境里，
除非加上括号，否则邻近操作符的优先级可能会产生不可预料的后果，所以建议宏在书写的时候多些括号。
函数：函数参数只在函数调用的时候求值一次，它的结果值传递给函数。表达式的求值结果更容易预测。

带有副作用的参数：
#define定义的宏：参数可能被替换到宏体中的多个位置，所以带有副作用的参数求值可能会产生不可预料的结果。
函数：函数参数只在传参的时候求值一次，结果更容易控制。

参数类型：
#define定义的宏：宏的参数与类型无关，只要对参数的操作是合法的，它就可以使用于任何参数类型。
函数：函数的参数是与类型有关的，如果参数的类型不同，就需要不同的函数，即使他们执行的任务是不同的。

调试：
#define定义的宏：宏是不方便调试的。
函数：函数是可以逐语句调试的。

递归：
#define定义的宏：宏是不能递归的。
函数：函数是可以递归的。

4. 条件编译

在编译一个程序的时候我们如果要将一条语句（一组语句）编译或者放弃是很方便的。因为我们有条件编译指令。

4.1 常见的条件编译指令

1. 
#if 常量表达式
 ... 
#endif
//常量表达式由预处理器求值。

//2.多个分支的条件编译
#if 常量表达式
... 
#elif 常量表达式
... 
#else
... 
#endif

//3.判断是否被定义
#if defined(symbol)
#ifdef symbol

#if !defined(symbol)
#ifndef symbol

//4.嵌套指令
#if defined(OS_UNIX)
      #ifdef OPTION1
           unix_version_option1();
      #endif
      #ifdef OPTION2
           unix_version_option2();
      #endif
#elif defined(OS_MSDOS)
      #ifdef OPTION2
           msdos_version_option2();
      #endif
#endif

使用方法：

int main()

	int arr[10] = 0;
	int i = 0;
	for (i = 0; i < 10; i++)
	
		arr[i] = i;
#if 1
		printf("%d ", arr[i]);
#endif
	
	return 0;

4.2 文件包含

#include指令可以使另外一个文件被编译。就像它实际出现于#include指令的地方一样。

本地头文件包含：#include “filename”
查找策略：
先在源文件所在目录下查找，如果该头文件未找到，编译器就像查找库函数头文件一样在标准位置查找头文件。如果找不到就提示编译错误。

库文件包含：#include <filename.h>
查找策略：
查找头文件直接去标准路径下去查找，如果找不到就提示编译错误。

4.3 嵌套文件包含

如果出现以下场景：

此时，comm.h和comm.c是公共模块。test1.h和test1.c使用了公共模块。test2.h和test2.c使用了公共模块。test.h和test.c使用了test1模块和test2模块。这样最终程序中就会出现两份comm.h的内容。这样就造成了文件内容的重复。
这时候我们就可以使用条件编译的办法来解决这个问题：

每个头文件的开头写：
#ifndef __ TEST_H __
#define __ TEST_H __
头文件的内容…
#endif __ TEST_H __
或者：
#pragma once
就可以避免头文件的重复引入。

5. 结尾

本文到这里就结束了，如果有什么问题或者文中有错误，欢迎大家在评论区留言讨论，感谢大家耐心阅读，如果帮助到大家的话，请各位大佬点赞收藏关注一波，十分感谢！

源代码到可执行程序的过程详解：预编译编译汇编链接

1、gcc编译过程分解

(1)首先是将.c源文件和.h头文件经过预编译(cpp是预编译器)，得到.i文件，主要是进行的一些替换工作；
(2)将.i文件经过编译器(gcc)处理，得到.s汇编文件，现在文件内容已经从C语言编程了汇编语言；
(3).s汇编文件经过汇编器(as)处理变成.o文件，此时的.o文件已经是二进制文件；
(4)最后将所有.o文件和依赖的静态库、动态库通过链接器(ld)生成可执行程序a.out；

2、预处理

//预编译得到.i文件的指令
gcc -E hello.c -o hello.i
//或者
cpp hello.c > hello.i

预编译主要处理源代码文件中以"#“开头的预编译指令，比如”#include"，主要规则如下：
(1)将所有的"#define"删除，并且展开所有的宏定义；
(2)处理所有的条件编译指令，比如"#if"、“#ifdef”、“#elif”、“#else”、“#endif”；
(3)处理"#include"预编译指令，将被包含的头文件插入到该预编译指令的位置，注意这个过程是递归进行的，也就是头文件内部还可以包含头文件；
(4)删除所有的注释，就是用"//“和”/* */开头的"；
(5)添加行号和文件名，以便在编译、运行时在显示报错信息、警告信息、调试信息时可以显示行号和文件名；
(6)保留所有#pragma编译器指令，因为编译器要使用他们；
总结：预编译后不再有宏定义、头文件、条件编译等，一切都是确定的代码；我们可以用预编译来判断宏定义是否正确、头文件是否包含正确等；

3、编译

//编译得到.s文件的指令
gcc -S hello.i -o hello.s
//或者
gcc -S hello.c -o hello.s

编译的作用是实现高级语言到汇编语言的转换，详细步骤如下：
(1)扫描：主要是进行词法分析，将源代码看做一个一个的记号，然后将记号进行分类，一般分为如下几类：关键字、标识符、字面量(数字、字符串等)、特殊符号(加号、等号等)；
(2)语法分析：语法分析会生成语法树，上一步的扫描只是对单个符号进行处理，而语法分析则是要将各个符号结合起来分析，形成表达式。比如：语法分析需要处理运算符的优先级问题(比如乘法的优先级高于加法);"*"在C语言中就可以表示乘法也可以表示指针解引用，语法分析就需要对此作出判断；
(3)语义分析：语法分析解决了代码之间怎么结合的问题，语义分析需要判断这样结合是否有意义，语法正确并不代表语义上也正确。比如：对两个指针变量做乘法运算是没有意义但符合语法；不同类型之间的变量做强制转换时，涉及的隐式转换就是语义分析阶段处理的；将int型变量赋值给指针变量，编译时报类型不匹配也是语义分析阶段处理的；
(4)源代码优化：在源代码级别进行优化处理；比如：代码中有"2+6"这样的表达式，在优化后直接变成8。实际的代码优化过程比较复杂，还涉及中间代码的生成，这里就不再做分析；
(5)代码生成和目标代码优化：将上一步产生的中间代码转换成目标机器代码，这是和具体的目标CPU相关的；

4、汇编

gcc -c hello.c -o hello.o
或者
as hello.s -o hello.o

(1)汇编的作用：将汇编语言翻译成机器能识别的二进制；
(2)将每一句汇编语言翻译成机器指令(二进制指令)，可以理解成汇编指令和机器指令有对照表；
(3)汇编语言是和具体的CPU硬件关联。同样的代码，不同架构CPU的汇编器最终得到的二进制是不同的，这也是为什么嵌入式开发中，需要用CPU对应的交叉编译工具链去编译可执行程序的原因；

5、链接

(1)在经过上述步骤后生成了.o文件，到目前为止都是以单个文件来处理的，文件之间或者是库之间的调用关系还没有处理；
(2)我们把链接过程理解成拼图的过程。比如：A模块引用了B模块的fun函数，在编译A模块时检测到调用了fun函数，但是A模块中并没有发现fun函数的实现，于是就会在调用fun函数的地方做个标记(相当于缺了一块)，当链接的时候就去所有模块里查找是否有fun函数的实现；恰好在B模块中找到fun函数的实现(如果在多个模块找到fun函数定义就报重复定义的错误)，于是就把B模块fun函数和A模块调用的地方链接起来；
总结：链接过程就是把所有.o文件根据函数调用关系拼接在一起，形成可执行程序；

以上是关于C语言中程序的编译（预处理操作）+链接详解（详细介绍程序预编译过程）的主要内容，如果未能解决你的问题，请参考以下文章