夯实基础，编译器原理前端部分浅析

Posted 2022-09-17 掘金安东尼

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了夯实基础，编译器原理前端部分浅析相关的知识，希望对你有一定的参考价值。

编译器同样重要

如果说计算机网络、操作系统、数据结构这些是编程必学基础，我能理解，现在连编译器原理都是必备基础了吗？是的，我们太习惯于从高级语言学起了，反而忘了C、C++、Java 这些高级语言是如何一层一层解析直至被计算机读懂的。正本清源，我们对编译器的认知，应该提到和操作系统、数据库、浏览器、编程语言、算法这些编程基础技能同一水平。

计算机很笨，只能认识 0 和 1，而人呢，脑子的存储能力又非常有限，很难记住大量无规律的东西。在这两者之间就需要一个“翻译官”，让人与计算机能“沟通”，它的名字是“语言处理器”。语言处理器由三部分组成，分别是：编译器、汇编器、解释器。其中编译器是离高级语言最近的一个部分。

编译器是处理完整程序并将源代码转换为可由计算机处理器执行的机器代码的程序。

说白了，编译器本质上就是一个程序，它可以阅读以某一种语言（通常是源语言）编写的程序，并把该程序翻译成为一个等价的、用另一种语言（目标语言）编写的程序。编译器还有一个很重要的任务就是报告他在翻译的过程中发现的源程序中的错误。

对于很多程序员而言，编译器就是一个黑匣子，当你打开这个黑匣子的时候，会发现它由两部分组成，分别是：前端（分析）部分和后端（综合）部分。

前端部分的工作主要包括：词法分析、语法分析、语义检查、生成中间代码。这个过程相对于后端，相对简单一点，之所以简单的原因是它所有操作都有了成型的理论支撑。

后端部分的主要工作内容：对中间代码优化，生成目标机器语言，以及对目标语言优化。

夯实基础，编译器原理前端部分浅析_语法分析

（图片来源：Introduction to deep learning）

编译器前端

下面简要说明一下编译器前端部分的几个处理环节。

（1）词法分析

词法分析是由编译器中的词法分析器来执行的。这通常也被称为Lexer（词法分析器）或者说scanner（扫描器）。

程序源码将作为一个文本流来输入到词法分析器中。词法分析器将源程序的各个单词（比如 begin、end、if、for、while 等）转换成词法单元流并输出到语法分析器中。

编译时词法分析器同时会创建一个符号表，符号表在编译过程的所有阶段都会被频繁的访问和修改。符号表包含了程序员在源代码中使用的名称的信息，例如变量和函数名。

（2）语法分析

语法分析则是由语法分析器来执行，通常也叫parser（语法分析器）。语法分析器从词法分析器输出的 token 序列中识别出各类短语，从而构造语法分析树(syntax tree)，并判断源程序在结构上是否正确。

比方说源代码：position = initial + rate * 60 构建出来的语法分析树是这样的：

夯实基础，编译器原理前端部分浅析_编译器_02

（3）语义检查

语义分析使用语法树和符号表中的信息来检查源程序是否和语言定义的语义一致。它同时也收集标识符的属性信息，并把这些信息存放在语法树或符号表中，以便在后面中间代码生成过程中使用。

语义分析的一个重要部分是类型检查。编译器检查每个运算符是否具有匹配的运算分量，比如数组的下标要求必须是一个整数，如果用浮点数作为数组下标，编译器就应该报错。

（4）生成中间代码

编译器的处理过程是从源程序到语法树，再到中间代码，再到目标代码，期间可能构造出一个或多个中间表示，且这些中间表示可以有多种形式。一种常见的中间代码是三地址码，也可以通过四元式、三元式或间接三元式的方式表示。

认识三址码

对于三位址码，每一条赋值指令的右侧只能有一个操作符，总共最多有三个地址（等号右侧只能有一个操作符，比如t1=y+z,这里t1，y,z都是地址，它们指向了地址对应的内存数据）

比如高级语言代码：

x = (y + z)*w

会转换成：

t1 = y + z
t2 = w * t1
x = t2

现在比较流行的一种编译器框架是 LLVM，我们可以大致看看编译前后的代码变化，感受一二。

编译前：

   int a = 10;
   int b = 11;
   return a + b;

编译后：

  %a = alloca i32, align 4
  %b = alloca i32, align 4
  store i32 0, i32* %retval, align 4
  store i32 10, i32* %a, align 4
  store i32 11, i32* %b, align 4
  %0 = load i32, i32* %a, align 4
  %1 = load i32, i32* %b, align 4
  %add = add nsw i32 %0, %1
  ret i32 %add

小结：在本篇编译器原理前端部分浅析中，有一些关键字，比如语法分析树、符号表、三地址码，这些还能拓展很多，后面有机会再做深入⑧

OK，以上便是本篇分享。点赞关注评论，为好文助力
以上是关于夯实基础，编译器原理前端部分浅析的主要内容，如果未能解决你的问题，请参考以下文章

编译原理-2词法分析

编译原理-2词法分析

编译原理模块二

Java—了解编译原理 (前端编译)

编译原理--概论

GCC编译器原理------编译原理三：编译过程（2-1）---编译之词法分析