文章目录

程序员的自我修养
1.基础知识
2.编译和链接
- 2.1被隐藏的过程
- - 2.1.1预编译
  - 2.1.2 编译
  - 2.1.3 汇编
  - 2.1.4 链接
- 2.2 编译器做了什么
- - 2.2.1 词法分析
  - 2.2.2 语法分析
  - 2.2.3 语义分析
  - 2.2.4 中间语言生成
  - 2.2.5 目标代码生成与优化
- 2.3 链接器年龄比编译器长
- 2.4 模块拼装——静态链接
3.目标文件中有什么
- 3.1目标文件的格式
- 3.2目标文件是什么样的
- 3.3挖掘SimpleSection.o
- - 3.3.1代码段
  - 3.3.2数据段和只读数据段

程序员的自我修养

1.基础知识

2.编译和链接

2.1被隐藏的过程

IDE一般都将编译和链接的过程一步完成，通常将这种编译和链接合并到一起的过程称为构建（Build）。即使使用命令行来编译一个源代码文件，简单的一句“gcc hello.c”命令就包含了非常复杂的过程。

#include <stdio.h>
int main()
{
printf("Hello World\n");
return 0;
}
hello.c

编译执行：

$gcc hello.c

$./a.out

Hello World

上述过程可以分解为4个步骤:

预处理（Prepressing）
编译（Compilation）
汇编（Assembly）
链接（Linking）

2.1.1预编译

$gcc –E hello.c –o hello.i 或 $cpp hello.c > hello.i

将源代码文件hello.c和相关的头文件（stdio.h）等被预编译器cpp预编译成一个.i文件

2.1.2 编译

$gcc –S hello.i –o hello.s

把预处理完的文件进行一系列词法分析、语法分析、语义分析及优化后生产相应的汇编代码文件

2.1.3 汇编

$as hello.s –o hello.o

将汇编代码转变成机器可以执行的指令，每一个汇编语句几乎都对应一条机器指令,目标文件

2.1.4 链接

$ld -static /usr/lib/crt1.o /usr/lib/crti.o /usr/lib/gcc/i486-linuxgnu/4.1.3/crtbeginT.o -L/usr/lib/gcc/i486-linux-gnu/4.1.3 -L/usr/lib - L/lib hello.o --start-group -lgcc -lgcc_eh -lc --end-group /usr/lib/gcc/i486- linux-gnu/4.1.3/crtend.o /usr/lib/crtn.o

要将一大堆文件链接起来才可以得到“a.out”，即最终的可执行文件

2.2 编译器做了什么

编译过程一般可以分为6步:

扫描
语法分析
语义分析
源代码优化
代码生成
目标代码优化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CIRUgEVF-1671542167853)(程序员的自我修养_img/image-20221201203506799.png)]

示例代码：

array[index] = (index + 4) * (2 + 6)CompilerExpression.c

2.2.1 词法分析

源代码程序被输入到扫描器（Scanner），扫描器简单地进行词法分析

词法分析产生的记号分为：关键字、标识符、字面量（包含数字、字符串等）和特殊符号（如加号、等号）

同时也将标识符存放到符号表，将数字、字符串常量存放到文字表等

2.2.2 语法分析

语法分析器（Grammar Parser）将对由扫描器产生的记号进行语法分析，从而产生语法树（Syntax Tree）

2.2.3 语义分析

编译器所能分析的语义是静态语义（Static Semantic），所谓静态语义是指在编译期可以确定的语义，与之对应的动态语义（Dynamic Semantic）就是只有在运行期才能确定的语义。

经过语义分析阶段以后，整个语法树的表达式都被标识了类型，如果有些类型需要做隐式转换，语义分析程序会在语法树中插入相应的转换节点。

语义分析器还对符号表里的符号类型也做了更新

2.2.4 中间语言生成

直接在语法树上作优化比较困难，所以源代码优化器往往将整个语法树转换成中间代码 （Intermediate Code），它是语法树的顺序表示，其实它已经非常接近目标代码了

上面的例子中的语法树可以被翻译成三地址码：

t1 = 2 + 6
t2 = index + 4
t3 = t2 * t1
array[index] = t3

为了使所有的操作都符合三地址码形式，这里利用了几个临时变量：t1、t2和t3,优化后的三地址码：

t2 = index + 4
t2 = t2 * 8
array[index] = t2

中间代码使得编译器可以被分为前端和后端。编译器前端负责产生机器无关的中间代码，编译器后端将中间代码转换成目标机器代码。这样对于一些可以跨平台的编译器而言，它们可以针对不同的平台使用同一个前端和针对不同机器平台的数个后端。

2.2.5 目标代码生成与优化

编译器后端主要包括代码生成器（Code Generator）和目标代码优化器（Target Code Optimizer）

代码生成器将中间代码转换成目标机器代码，这个过程十分依赖于目标机器，因为不同的机器有着不同的字长、寄存器、整数数据类型和浮点数数据类型等。

代码生成器可能会生成下面的代码序列（用x86的汇编语言表示）：

movl index, %ecx ; value of index to ecx
addl $4, %ecx ; ecx = ecx + 4
mull $8, %ecx ; ecx = ecx * 8
movl index, %eax ; value of index to eax
movl %ecx, array(,eax,4) ; array[index] = ecx

目标代码优化器对上述的目标代码进行优化，比如选择合适的寻址方式、使用位移来代替乘法运算、删除多余的指令等

优化后：

movl index, %edx
leal 32(,%edx,8), %eax
movl %eax, array(,%edx,4)

2.3 链接器年龄比编译器长

2.4 模块拼装——静态链接

链接的主要内容就是把各个模块之间相互引用的部分都处理好，使得各个模块之间能够正确地衔接；即把一些指令对其他符号地址的引用加以修正

链接过程主要包括了地址和空间分配（Address and Storage Allocation）、符号决议（Symbol Resolution）和重定位（Relocation）等这些步骤

最基本的静态链接：每个模块的源代码文件（如.c）文件经过编译器编译成目标文件（Object File，一般扩展名为.o或.obj），目标文件和库（Library）一起链接形成最终可执行文件

3.目标文件中有什么

3.1目标文件的格式

3.2目标文件是什么样的

目标文件包含：机器码指令、数据、符号表、调试信息、字符串等。

将这些内容按不同的属性称为段。分为：

代码段(.code/.text)：机器指令
数据段
- (.data)：已初始化的全局变量，局部静态变量数据
- (.bss)：未初始化的全局变量，局部静态变量数据
- (.rodata)：只读数据

3.3挖掘SimpleSection.o

int printf( const char* format, ... );
int global_init_var = 84;
int global_uninit_var;
void func1( int i )
{printf( "%d\n", i );
}
int main(void)
{static int static_var = 85;
static int static_var2;
int a = 1;
int b;
func1( static_var + static_var2 + a + b );
return a;
}/*
* SimpleSection.c
*
* Linux:
* gcc -c SimpleSection.c
*
* Windows:
* cl SimpleSection.c /c /Za
*/

查看目标文件：

$ objdump -h SimpleSection.o
SimpleSection.o: file format elf32-i386
Sections:
Idx Name Size    VMA      LMA      File off Algn
0 .text 0000005b 00000000 00000000 00000034 2**2CONTENTS, ALLOC, LOAD, RELOC, READONLY, CODE
1 .data 00000008 00000000 00000000 00000090 2**2CONTENTS, ALLOC, LOAD, DATA
2 .bss  00000004 00000000 00000000 00000098 2**2ALLOC
3 .rodata 00000004 00000000 00000000 00000098 2**0CONTENTS, ALLOC, LOAD, READONLY, DATA
4 .comment 0000002a 00000000 00000000 0000009c 2**0CONTENTS, READONLY
5 .note.GNU-stack 00000000 00000000 00000000 000000c6 2**0CONTENTS, READONLY

$ size SimpleSection.o   // 查看ELF文件的代码段、数据段和BSS段的长度（dec表示3个段长度的和的十进制，hex表示长度和的十六进制）
text data bss dec hex filename
95   8    4   107 6b  SimpleSection.o

3.3.1代码段

$ objdump -s -d SimpleSection.o //-s参数可以将所有段的内容以十六进制的方式打印出来 //-d ”参数可以将所有包含指令的段反汇编。Contents of section .text:
0000 5589e583 ec088b45 08894424 04c70424 U......E..D$...$
0010 00000000 e8fcffff ffc9c38d 4c240483 ............L$..
0020 e4f0ff71 fc5589e5 5183ec14 c745f401 ...q.U..Q....E..
0030 0000008b 15040000 00a10000 00008d04 ................
0040 020345f4 0345f889 0424e8fc ffffff8b ..E..E...$......
0050 45f483c4 14595d8d 61fcc3 E....Y].a..00000000 <func1>:
0: 55 push %ebp
1: 89 e5 mov %esp,%ebp
3: 83 ec 08 sub $0x8,%esp
6: 8b 45 08 mov 0x8(%ebp),%eax
9: 89 44 24 04 mov %eax,0x4(%esp)
d: c7 04 24 00 00 00 00 movl $0x0,(%esp)
14: e8 fc ff ff ff call 15 <func1+0x15>
19: c9 leave
1a: c3 ret0000001b <main>:
1b: 8d 4c 24 04 lea 0x4(%esp),%ecx
1f: 83 e4 f0 and $0xfffffff0,%esp
22: ff 71 fc pushl -0x4(%ecx)
25: 55 push %ebp
26: 89 e5 mov %esp,%ebp
28: 51 push %ecx
29: 83 ec 14 sub $0x14,%esp
2c: c7 45 f4 01 00 00 00 movl $0x1,-0xc(%ebp)
33: 8b 15 04 00 00 00 mov 0x4,%edx
39: a1 00 00 00 00 mov 0x0,%eax
3e: 8d 04 02 lea (%edx,%eax,1),%eax
41: 03 45 f4 add -0xc(%ebp),%eax
44: 03 45 f8 add -0x8(%ebp),%eax
47: 89 04 24 mov %eax,(%esp)
4a: e8 fc ff ff ff call 4b <main+0x30>
4f: 8b 45 f4 mov -0xc(%ebp),%eax
52: 83 c4 14 add $0x14,%esp
55: 59 pop %ecx
56: 5d pop %ebp
57: 8d 61 fc lea -0x4(%ecx),%esp
5a: c3 ret

3.3.2数据段和只读数据段