C语言文件的编译与执行的四个阶段并分别描述

Posted 2023-03-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了C语言文件的编译与执行的四个阶段并分别描述相关的知识，希望对你有一定的参考价值。

开发C程序有四个步骤：编辑、编译、连接和运行。

任何一个体系结构处理器上都可以使用C语言程序，只要该体系结构处理器有相应的C语言编译器和库，那么C源代码就可以编译并连接到目标二进制文件上运行。

1、预处理：导入源程序并保存（C文件）。

2、编译：将源程序转换为目标文件（Obj文件）。

3、链接：将目标文件生成为可执行文件（EXE文件）。

4、运行：执行，获取运行结果的EXE文件。

扩展资料：

将C语言代码分为程序的几个阶段：

1、首先，源代码文件测试。以及相关的头文件，比如stdio。H、由预处理器CPP预处理为．I文件。预编译的。文件不包含任何宏定义，因为所有宏都已展开，并且包含的文件已插入。我归档。

2、编译过程是对预处理文件进行词法分析、语法分析、语义分析和优化，生成相应的汇编代码文件。这个过程往往是整个程序的核心部分，也是最复杂的部分之一。

3、汇编程序不直接输出可执行文件，而是输出目标文件。汇编程序可以调用LD来生成可以运行的可执行程序。也就是说，您需要链接大量的文件才能获得“a.out”，即最终的可执行文件。

4、在链接过程中，需要重新调整其他目标文件中定义的函数调用指令，而其他目标文件中定义的变量也存在同样的问题。

参考资料来源：百度百科-c语言

参考技术A

第一个阶段是预处理阶段，在正式的编译阶段之前进行。预处理阶段将根据已放置在文件中的预处理指令来修改源文件的内容。如#include指令就是一个预处理指令，它把头文件的内容添加到.cpp文件中。

第二个阶段编译、优化阶段，将其翻译成等价的中间代码表示或汇编代码，并执行优化。

第三个阶段是汇编，把汇编语言代码翻译成目标机器指令。

第四个阶段是链接，例如，某个源文件中的函数可能引用了另一个源文件中定义的某个符号（如变量或者函数调用等）；在程序中可能调用了某个库文件中的函数，等等。所有的这些问题，都需要经链接程序的处理方能得以解决。

参考技术B 采纳了加我不懂问我</b> 一 C编译过程概述目前Linux下最常用的C语言编译器是GCC(GNU Compiler Collection),它是GNU项目中符合ANSI C标准的编译系统,能够编译用C、C++和Object C等语言编写的程序.GCC不仅功能非常强大,结构也异常灵活.最值得称道的一点就是它可以通过不同的前端模块来支持各种语言,如Java、Fortran、Pascal、Modula-3和Ada等. Linux系统下的gcc（GNU C Compiler）是GNU推出的功能强大、性能优越的多平台编译器，是GNU的代表作品之一。gcc是可以在多种硬体平台上编译出可执行程序的超级编译器，其执行效率与一般的编译器相比平均效率要高20%~30%。使用GCC编译程序时,编译过程可以被细分为四个阶段:
◆ 预处理(Pre-Processing)
◆ 编译(Compiling)
◆ 汇编(Assembling)
◆ 链接(Linking) 二编译过程中各种文件介绍 1.以扩展名区分文件类型.c为后缀的文件，C语言源代码文件；
.a为后缀的文件，是由目标文件构成的档案库文件；
.C，.cc或.cxx 为后缀的文件，是C++源代码文件；
.h为后缀的文件，是程序所包含的头文件；
.i 为后缀的文件，是已经预处理过的C源代码文件；
.ii为后缀的文件，是已经预处理过的C++源代码文件；
.m为后缀的文件，是Objective-C源代码文件；
.o为后缀的文件，是编译后的目标文件；
.s为后缀的文件，是汇编语言源代码文件；
.S为后缀的文件，是经过预编译的汇编语言源代码文件。 2.LINUX目标文件描述 LINUX 平台下三种主要的可执行文件格式：a.out（assembler and link editor output 汇编器和链接编辑器的输出）、COFF（Common Object File Format 通用对象文件格式）、ELF（Executable and Linking Format 可执行和链接格式）。其中ELF是x86 Linux系统下的一种常用目标文件(object file)格式，有三种主要类型: (1)适于连接的可重定位文件(relocatable file)，可与其它目标文件一起创建可执行文件和共享目标文件。编译产生的.o文件就属于这类。
(2)适于执行的可执行文件(executable file)，用于提供程序的进程映像，加载到内存执行。这就是编译、链接之后形成的最终文件。
(3)共享目标文件(shared object file)，连接器可将它与其它可重定位文件和共享目标文件连接成其它的目标文件，动态连接器又可将它与可执行文件和其它共享目标文件结合起来创建一个进程映像。这就是库文件，只指动态库文件。详细了解请看本人收藏的《LINUX可执行文件分析》三编译过程详解 C语言的编译链接过程要把我们编写的一个c程序（源代码）转换成可以在硬件上运行的程序（可执行代码），需要进行编译和链接。编译就是把文本形式源代码翻译为机器语言形式的目标文件的过程。链接是把目标文件、操作系统的启动代码和用到的库文件进行组织形成最终生成可执行代码的过程。过程图解如下：
从图上可以看到，整个代码的编译过程分为编译和链接两个过程，编译对应图中的大括号括起的部分，其余则为链接过程。 1. 编译过程编译过程又可以分成两个阶段：编译和汇编。 1）编译编译是读取源程序（字符流），对之进行词法和语法的分析，将高级语言指令转换为功能等效的汇编代码，源文件的编译过程包含两个主要阶段：第一个阶段是预处理阶段，在正式的编译阶段之前进行。预处理阶段将根据已放置在文件中的预处理指令来修改源文件的内容。如#include指令就是一个预处理指令，它把头文件的内容添加到.cpp文件中。这个在编译之前修改源文件的方式提供了很大的灵活性，以适应不同的计算机和操作系统环境的限制。一个环境需要的代码跟另一个环境所需的代码可能有所不同，因为可用的硬件或操作系统是不同的。在许多情况下，可以把用于不同环境的代码放在同一个文件中，再在预处理阶段修改代码，使之适应当前的环境。主要是以下几方面的处理： (1)宏定义指令，如 #define a b
对于这种伪指令，预编译所要做的是将程序中的所有a用b替换，但作为字符串常量的 a则不被替换。还有 #undef，则将取消对某个宏的定义，使以后该串的出现不再被替换。 (2)条件编译指令，如#ifdef，#ifndef，#else，#elif，#endif等。
这些伪指令的引入使得程序员可以通过定义不同的宏来决定编译程序对哪些代码进行处理。预编译程序将根据有关的文件，将那些不必要的代码过滤掉。
（3)头文件包含指令，如#include "FileName"或者#include <FileName>等。在头文件中一般用伪指令#define定义了大量的宏（最常见的是字符常量），同时包含有各种外部符号的声明。采用头文件的目的主要是为了使某些定义可以供多个不同的C源程序使用。因为在需要用到这些定义的C源程序中，只需加上一条#include语句即可，而不必再在此文件中将这些定义重复一遍。预编译程序将把头文件中的定义统统都加入到它所产生的输出文件中，以供编译程序对之进行处理。包含到c源程序中的头文件可以是系统提供的，这些头文件一般被放在 /usr/include目录下。在程序中#include它们要使用尖括号（< >）。另外开发人员也可以定义自己的头文件，这些文件一般与c源程序放在同一目录下，此时在#include中要用双引号（""）。
(4)特殊符号，预编译程序可以识别一些特殊的符号。
例如在源程序中出现的LINE标识将被解释为当前行号（十进制数），FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。

预编译程序所完成的基本上是对源程序的“替代”工作。经过此种替代，生成一个没有宏定义、没有条件编译指令、没有特殊符号的输出文件。这个文件的含义同没有经过预处理的源文件是相同的，但内容有所不同。下一步，此输出文件将作为编译程序的输出而被翻译成为机器指令。

第二个阶段编译、优化阶段，经过预编译得到的输出文件中，只有常量；如数字、字符串、变量的定义，以及C语言的关键字，如main,if,else,for,while,,, +,-,*,\等等。

编译程序所要作得工作就是通过词法分析和语法分析，在确认所有的指令都符合语法规则之后，将其翻译成等价的中间代码表示或汇编代码。

优化处理是编译系统中一项比较艰深的技术。它涉及到的问题不仅同编译技术本身有关，而且同机器的硬件环境也有很大的关系。优化一部分是对中间代码的优化。这种优化不依赖于具体的计算机。另一种优化则主要针对目标代码的生成而进行的。

对于前一种优化，主要的工作是删除公共表达式、循环优化（代码外提、强度削弱、变换循环控制条件、已知量的合并等）、复写传播，以及无用赋值的删除，等等。后一种类型的优化同机器的硬件结构密切相关，最主要的是考虑是如何充分利用机器的各个硬件寄存器存放的有关变量的值，以减少对于内存的访问次数。另外，如何根据机器硬件执行指令的特点（如流水线、RISC、CISC、VLIW等）而对指令进行一些调整使目标代码比较短，执行的效率比较高，也是一个重要的研究课题。

2）汇编
汇编实际上指把汇编语言代码翻译成目标机器指令的过程。对于被翻译系统处理的每一个C语言源程序，都将最终经过这一处理而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的目标的机器语言代码。目标文件由段组成。通常一个目标文件中至少有两个段：代码段：该段中所包含的主要是程序的指令。该段一般是可读和可执行的，但一般却不可写。数据段：主要存放程序中要用到的各种全局变量或静态的数据。一般数据段都是可读，可写，可执行的。 2. 链接过程由汇编程序生成的目标文件并不能立即就被执行，其中可能还有许多没有解决的问题。
例如，某个源文件中的函数可能引用了另一个源文件中定义的某个符号（如变量或者函数调用等）；在程序中可能调用了某个库文件中的函数，等等。所有的这些问题，都需要经链接程序的处理方能得以解决。

链接程序的主要工作就是将有关的目标文件彼此相连接，也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来，使得所有的这些目标文件成为一个能够诶操作系统装入执行的统一整体。

根据开发人员指定的同库函数的链接方式的不同，链接处理可分为两种： (1)静态链接在这种链接方式下，函数的代码将从其所在地静态链接库中被拷贝到最终的可执行程序中。这样该程序在被执行时这些代码将被装入到该进程的虚拟地址空间中。静态链接库实际上是一个目标文件的集合，其中的每个文件含有库中的一个或者一组相关函数的代码。 (2)动态链接
在此种方式下，函数的代码被放到称作是动态链接库或共享对象的某个目标文件中。链接程序此时所作的只是在最终的可执行程序中记录下共享对象的名字以及其它少量的登记信息。在此可执行文件被执行时，动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。

对于可执行文件中的函数调用，可分别采用动态链接或静态链接的方法。使用动态链接能够使最终的可执行文件比较短小，并且当共享对象被多个进程使用时能节约一些内存，因为在内存中只需要保存一份此共享对象的代码。但并不是使用动态链接就一定比使用静态链接要优越。在某些情况下动态链接可能带来一些性能上损害。四编译过程实例描述 linux中使用的gcc编译器把上述的几个过程集成，一个命令就能完成编译的整个过程。为了详细说明每个步骤，下面我们将分部执行。下图是gcc代理的编译过程
例程: 在linux下创建文件hello.c，内容如下，
#include <stdio.h>
int main(void)

printf ("Hello,everybody!\n");
return 0;
◆ 预处理(Pre-Processing)
使用-E参数可以让GCC在预处理结束后停止编译过程，对应的命令是cpp,
# gcc -E hello.c -o hello.i 用编辑器打开hello.i,可以看到stdio.h文件被展开到了hello.i中。 ◆ 编译(Compiling)
使用-S参数将hello.i编译为汇编程序,使用的命令是cc -S,
#gcc –S hello.i –o hello.s 用编辑器打开hello.s，显然已经变成了汇编代码。 ◆ 汇编(Assembling)
使用-c参数将hello.s编译为目标文件,对应的命令是as,
#gcc –c hello.s –o hello.o 可以利用工具readelf或者objdump读出hello.o的信息。 ◆ 链接(Linking) 产生可执行文件，利用命令ld
# gcc hello.o -o hello
利用readelf,可以看到hello.o和hello文件的区别。参考技术C 神马浮云问题. 倒!!!!!!

gcc/g++ 实战之编译的四个过程

gcc和g++分别是GNU(一个开源组织）的c&c++编译器

对于.c后缀的文件，gcc把它当做是C程序，g++当做是C++程序；对于.cpp后缀的文件，gcc和g++都会当做c++程序。gcc可以根据后缀名为.c或.cpp分别按c程序和c++程序来编译，但是g++无论是.c或.cpp都统一按c++程序来编译。

编译阶段，g++会调用gcc，链接阶段通常会用g++来完成，g++在编译的过程中，其实是调用gcc按照c++程序来编译的。即编译工作最终都是由gcc来完成的。这是因为gcc命令不能自动和c++程序使用的库连接。而g++则会自动调用链接的c++库。

gcc可以用来编译c++但是它不会自动调用链接的c++库，你需要自己手动链接，使用如下命令：

gcc main.cpp -lstdc++

注：main.cpp -lstdc++ 位置不能换，换了位置笔者编译出现了 main.cpp:(.text+0x2d):undefined reference to`std::cout‘ 等一系列的错误

gcc/g++在执行编译工作的时候，分为以下四个过程：

1.预处理，生成.i的文件
2.将预处理后的文件转换成汇编语言，生成.s文件
3.汇编变为目标代码(机器代码)生成.o的文件
4.连接目标代码,生成可执行程序

下面用个小例子说明这四个过程：

//建个main.cpp

//This is the test code
 #include <iostream>

 using namespace std;

 #define pi 3.14
 static int t = 1; 

 int main()
 {
  　　cout<<"Hello World: The t+pi is "<<t+pi<<endl;
  　　return 0;
  }

（1）预处理阶段

g++ -E main.cpp > main.i

预处理后的文件 linux下以.i为后缀名，这个过程只激活预处理，不生成文件,因此你需要把它重定向到一个输出文件里。

这一步的功能：

宏的替换，还有注释的消除，还有找到相关的库文件，将#include文件的全部内容插入。若用<>括起文件则在系统的INCLUDE目录中寻找文件，若用" "括起文件则在当前目录中寻找文件。

用编辑器打开main.i会发现有很多很多代码，你只需要看最后部分就会发现，预处理做了宏的替换，还有注释的消除，可以理解为无关代码的清除。

cat main.i

下面是main.i文件的最后部分，可以看见宏的替换和注释的消除。

技术分享

（2）将预处理后的文件转换成汇编语言,生成.s文件

g++ -S main.cpp

这一步的功能：

生成main.s文件，.s文件表示是汇编文件，用编辑器打开就都是汇编指令。

cat main.s

下面是main.s文件的一部分：

技术分享

（3）汇编变为目标代码(机器代码)生成.o的文件

g++ -c main.cpp

这一步的功能：

.o是gcc生成的目标文件，用编辑器打开就都是二进制机器码。

cat main.o

下面是main.o文件的一部分:

技术分享

（4）连接目标代码，生成可执行程序

g++ main.o -o main //生成的可执行程序名为main ，如果执行命令 g++ main.o  这样默认生成a.out，也就是main与a.out是一个只是名字不同而已

下面是main文件的一部分:

ls

技术分享

./main

技术分享

在成功编译之后，就进入了链接阶段。在这里涉及到一个重要的概念：函数库(可以这么理解就是不带main（）函数的.cpp生成的)。

读者可以重新查看这个小程序，在这个程序中并没有定义”cout”的函数(准确说cout不是函数，cout却很独特：既不是函数，似乎也不是C++特别规定出来的像if，for一类有特殊语法的“语句”，其实说到底还是函数调用，不过这函数有些特殊，用的是运算符重载，确切地说是重载了“<<”运算符。这里如果用pritf()函数说明会更好，暂且当做函数理解吧）实现，且在预编译中包含进的”iostream”中也只有该函数的声明，而没有定义函数的实现，那么，是在哪里实现”cout”函数的呢？系统把这些函数实现都被做到名为stdc++的库文件中去了，在没有特别指定时，g++会到系统默认的搜索路径”/usr/lib”下进行查找，也就是链接到stdc++库函数中去，这样就能实现函数”cout”了，而这也就是链接的作用。

函数库一般分为静态库和动态库两种。

以上是关于C语言文件的编译与执行的四个阶段并分别描述的主要内容，如果未能解决你的问题，请参考以下文章

C语言入门学习笔记如何把C语言程序变成可执行文件！