详解 Linux 可执行文件 ELF 文件的内部结构

2022-06-27 15:38:11 浏览数 (1)

1. 引言

上一篇文章中,我们介绍了如何让汇编语言与 C 语言相互调用: 如何实现汇编语言与 C 语言之间的相互调用

还记得我们自制操作系统的脚步到哪里了呢?没错,已经完成了从启动扇区跳转到 loader,那么,下一步就是如何用 loader 拉起内核了。 有了上面汇编语言调用 C 语言的基础,我们就可以做到让汇编语言编写的 loader 拉起用 C 语言编写的内核了,本文我们就来详细了解一下编译后的可执行文件 — ELF 文件的结构,下一篇文章将会介绍如何通过汇编将 ELF 文件载入内存并执行。

2. ELF 文件

上一篇文章中,当我们编译汇编代码时,指定了 -f elf 参数:

nasm -f elf -o asm.o main.asm

这就意味着生成的 asm.o 是 ELF 文件(Executable and Linkable Format) 所谓的 ELF 文件,翻译过来就是“可执行与可链接文件”,是一种用于二进制文件之间相互调用的可执行文件格式,通过链接即可引入调用,拥有非常强大的可扩展性和灵活性。 在 linux 中,可执行文件、Object文件、动态库文件都是ELF格式文件,他相当于 windows 操作系统中的 PE 文件。 通过 readelf 命令可以读取 ELF 文件的内容。

3. ELF 文件的结构

要想使用 ELF 文件,我们首先必须知道 ELF 文件是如何构成的。

如上图所示,ELF 文件由四部分组成:

  1. elf header — ELF 头
  2. program header table — 程序头表
  3. sections — 节
  4. section header table — 节头表

并非所有的 ELF 文件都包含全部上述四部分,除了 ELF 头外,其他各部分的位置、大小都不固定。 这里提到了“节”的概念,上一篇文章中,我们在汇编中使用了 section 关键字,就是指定了对应代码块的 section 类型,linux 支持下面的三种 section:

  1. .text — 代码段,用来存放代码,可读可执行
  2. .data — 数据段,存放堆栈以及初始化过的 global 变量、static 变量等,可读可写
  3. .bss — 存放未初始化 global 变量和未初始化 static 变量,可读可写
  4. .rodata — 存放字符串、常量

3.1. ELF 头

既然除了 ELF 头外其他部分的位置、大小都不固定,那么他们又是如何决定的呢?很简单,他们的位置和大小都是由 ELF 头中的字段声明的。 ELF 头的格式如下:

代码语言:javascript复制
#define EI_NIDENT 16  
typedef struct {  
    // 16 字节 ELF 文件声明,由固定信息组成,用来表示是 ELF 文件  
    unsigned char e_ident[EI_NIDENT];  
    // 标识 elf 文件类型  
    // 0. 未知, 1. 可重定位文件, 2. 可执行文件, 3. 共享目标文件, 4. core 文件  
    Elf32_Half e_type;  
    // 程序运行的硬件体系结构,80386 体系为 3  
    Elf32_Half e_machine;  
    // 文件版本号  
    Elf32_Word e_version;  
    // 程序入口地址  
    Elf32_Addr e_entry;  
    // Program header table 在文件中的偏移量(字节数)  
    Elf32_Off e_phoff;  
    // Section header table 在文件中的偏移量(字节数)  
    Elf32_Off e_shoff;  
    // 文件标识符,IA32 汇编为 0  
    Elf32_Word e_flags;  
    // ELF header 的字节数  
    Elf32_Half e_ehsize;  
    // Program header table 中每个条目的字节数  
    Elf32_Half e_phentsize;  
    // Program header table 中条目数  
    Elf32_Half e_phnum;  
    // Section header table 中每个条目的字节数  
    Elf32_Half e_shentsize;  
    // Section header table 中条目数  
    Elf32_Half e_shnum;  
    // 包含节名称的字符串表是第几个节  
    Elf32_Half e_shstrndx;  
} Elf32_Ehdr;

上面使用到的数据类型如下:

ELF header 声明中的类型

名称

大小

对齐

用途

Elf32_Addr

4

4

无符号程序地址

Elf32_Half

2

2

无符号中等大小整数

Elf32_Off

4

4

无符号文件偏移

Elf32_Sword

4

4

有符号大整数

Elf32_Word

4

4

无符号大整数

unsigned char

1

1

无符号小整数

下图展示了上篇文章中我们生成的两个文件通过 readelf 命令读取到的头信息:

3.2. Section Header 的结构

Section Header Table 中的每个条目 Section Header 都描述了 ELF 文件中 Sections 区域中一个节的信息。 他的结构如下:

代码语言:javascript复制
typedef struct {  
    // 节区名,是节区头部字符串表节区(Section Header String Table Section)的索引  
    // 名字是一个 NULL 结尾的字符串  
    Elf32_Word sh_name;  
    // 该节类型  
    Elf32_Word sh_type;  
    // 节区标志  
    Elf32_Word sh_flags;  
    // 如果节区将出现在进程的内存映像中,此成员给出节区的第一个字节应处的位置  
    // 否则,此字段为 0  
    Elf32_Addr sh_addr;  
    // 该节区首个字节的偏移。  
    Elf32_Off sh_offset;  
    // 该节长度  
    Elf32_Word sh_size;  
    // 该节头部表索引,具体内容依赖于节类型  
    Elf32_Word sh_link;  
    // 节头部表附加信息,具体内容依赖于节类型  
    Elf32_Word sh_info;  
    // 地址对齐约束  
    Elf32_Word sh_addralign;  
    // 该节固定表项长度  
    Elf32_Word sh_entsize;  
} Elf32_Shdr;

下图展示了上篇文章中可执行文件 main 的 Section Header 结构:

3.3. Program Header 的结构

Program Header Table 中的条目 Program Header 是与程序执行直接相关的,他描述了一个即将被载入内存的段在文件中的位置、大小以及它被载入内存后所在的位置和大小。 一个段包含一个或多个节。 Program Header 结构如下:

代码语言:javascript复制
typedef struct {  
    // 当前 Program header 所描述的段的类型  
    Elf32_Word p_type;  
    // 该段首地址在文件中的偏移量(字节数)  
    Elf32_Off  p_offset;  
    // 该段被载入内存后,首个字节的虚拟地址  
    Elf32_Addr p_vaddr;  
    // 该段被载入内存后,首个字节的物理地址(对于使用虚拟地址的系统来说,该项为 0)  
    Elf32_Addr p_paddr;  
    // 段长度(字节数)  
    Elf32_Word p_filesz;  
    // 段在内存中的长度  
    Elf32_Word p_memsz;  
    // 段标志位  
    Elf32_Word p_flags;  
    // 段在文件内和内存中的对齐方式  
    Elf32_Word p_align;  
} Elf32_Phdr;

通过 readelf -l 命令我们就可以查看文件的 program headers 信息了:

从图中,我们可以看到这个 ELF 文件有五个 Program header 条目。

4. 后记

本文,我们介绍了 ELF 文件的四个组成部分,以及其中三个的具体结构,而实际存储数据的 section 的结构我们并没有介绍。 别忘了我们的目标,我们需要通过汇编语言编写的 loader 程序将在 linux 环境上编译的 C 语言内核程序载入到内存并执行,因此,实际上我们只需要知道 ELF 文件需要如何被载入内存,并从哪里开始执行。 了解了上面的结构信息,你就会发现,事实上与我们的目标直接相关的是 ELF 文件中的 Program Header 部分,他描述了可执行文件中有那几个段,每个段需要被载入到内存的哪个位置,而每个段包含多少个节、以及每个节内部的具体信息我们其实并不需要关心。 也就是说,我们通过 ELF header 中的字段,找到 Program Header Table,然后读取每个 Program Header,将对应的段载入到内存指定的位置,然后跳转,即可实现可执行文件的执行了。 这样一来,是不是读取 ELF 文件并载入内存的工作已经呼之欲出了呢? 敬请期待博主下一篇文章,详细讲解 loader 加载内核的完整代码。

5. 参考资料

https://blog.csdn.net/mergerly/article/details/94585901。 http://www.choudan.net/2013/11/16/Linux进程地址空间再学习.html。 http://www.choudan.net/2013/10/25/Linux进程地址空间学习(二).html。

0 人点赞