9个基本的GNU binutils 工具【Linux-Command-line】

2019-11-20 17:25:13 浏览数 (1)

二进制分析是计算机行业中被低估的技能。

图片来源:opensource.com图片来源:opensource.com

想象一下,尽管无法访问软件的源代码,但仍然能够理解软件的实现方式,在其中找到漏洞,并且(更好的是)修复了错误。 凡此种种都源于二进制形式。 听起来像是拥有超能力,不是吗?

你也可以拥有这样的超级能力,GNU二进制实用程序(binutils)是一个很好的起点。 GNU binutils是二进制工具的集合,默认情况下,这些工具安装在所有Linux发行版中。

二进制分析是计算机行业中被低估的技能。 它主要由恶意软件分析师,反向工程师和在底层软件上工作的人员使用。

本文探讨了一些可用的binutils工具。 我正在使用的是RHEL,但是这些示例可以在任何Linux发行版上运行。

请注意,某些打包命令(例如rpm)可能在基于Debian的发行版中不可用,因此请在适用时使用等效的dpkg命令。

软件开发101

在开源世界中,我们很多人都专注于源代码形式的软件。 当软件的源代码随时可用时,很容易获得源代码的副本,打开你喜欢的编辑器,喝杯咖啡,然后开始探索。

但是源代码不是在CPU上执行的代码。 它是在CPU上执行的二进制或机器语言指令。 二进制或可执行文件是编译源代码时获得的。 熟练的调试人员通常会通过了解这种差异来获得优势。

汇编101

在深入研究binutils软件包本身之前,最好先了解编译的基础知识。

编译是将程序从某种编程语言(C / C )的源代码或文本形式转换为机器代码的过程。

机器代码是CPU(通常被称为硬件)可以理解的1和0的序列,因此可以由CPU执行或运行。 该机器码以特定格式保存到文件,通常称为可执行文件或二进制文件。 在Linux(当使用Linux Binary Compatibility时,还有BSD)上,这称为ELF(可执行和可链接格式)。

在呈现给定源文件的可执行文件或二进制文件之前,编译过程将经历一系列复杂的步骤。 以该源程序(C代码)为例。 打开你喜欢的编辑器,然后键入以下程序:

步骤1:使用cpp进行预处理

C preprocessor(cpp)用于扩展所有宏并包括头文件。 在此示例中,头文件“stdio.h”将包含在源代码中。 “stdio.h”是一个头文件,其中包含有关程序内使用的printf函数的信息。 cpp在源代码上运行,并将生成的指令保存在名为“hello.i”的文件中。 使用文本编辑器打开文件以查看其内容。 打印“hello world”的源代码在文件的底部。

步骤2:使用gcc进行编译

在此阶段,无需创建目标文件就将步骤1中的预处理源代码转换为汇编语言指令。 它使用GNU Compiler Collection (gcc)。 在“hello.i”文件上运行带有“-S”选项的gcc命令后,它将创建一个名为“hello.s”的新文件。 该文件包含C程序的汇编语言说明。

您可以使用任何编辑器或cat命令查看内容。

步骤3:用as组装

汇编程序的目的是将汇编语言指令转换为机器语言代码,并生成扩展名为“.o”的目标文件。 使用GNU汇编程序“as”,因为它在所有Linux平台上默认都可用。

现在,你有了ELF格式的第一个文件,然而当前你还不能执行它。 稍后,你将看到目标文件和可执行文件之间的区别。

步骤4:链接Id

当链接目标文件以创建可执行文件时,这是编译的最后阶段。 可执行文件通常需要外部函数,这些函数通常来自系统库(libc)。

可以使用ld命令直接调用链接器; 但是,此命令有些复杂。 相反,你可以将gcc编译器与“-v”(verbose)标志一起使用,以便了解链接的运作方式。 (你需要探索如何使用ld命令进行链接)

运行此命令后,你应该看到一个名为“a.out”的可执行文件:

在a.out上运行file命令表明它确实是ELF可执行文件:

运行可执行文件,查看它是否如源代码所示:

答案是肯定的! 只为在屏幕上打印“Hello World”,屏幕后发生了很多事情。 可以想像在更复杂的程序中会发生什么。

探索binutils工具

此练习为使用binutils软件包中的工具提供了良好的背景。 我的系统binutils版本为2.27-34, 考虑到Linux发行版的多样,你的版本可能有不同之处。

binutils软件包提供了以下可用工具:

上面的编译练习已经探索了其中两个工具:as命令用作汇编程序,而ld命令用作链接程序。 继续阅读以了解其他七个以上粗体突出显示的GNU binutils软件包工具。

readelf:显示有关ELF文件的信息

上面的练习提到了术语“目标文件”和“可执行文件”。 使用该练习中的文件,用“-h”(header)选项输入“readelf”,以便将文件的ELF标题转储到屏幕上。 请注意,以“.o”扩展名结尾的目标文件显示为“Type:REL(Relocatable file)”:

如果尝试执行此文件,将收到一条错误消息,指出无法执行。 这仅表示它尚不具备在CPU上执行所需的信息。

请记住,你首先需要使用chmod命令在目标文件上添加"x"或“executable bit”,否则将出现“Permission denied”错误。

如果对a.out文件尝试相同的命令,则会看到其类型为“EXEC”(Executable file,可执行文件)。

如前所示,该文件可以直接由CPU执行:

readelf命令提供了大量有关二进制文件的信息。 在这里,它告诉你它是ELF64位格式,这意味着它只能在64位CPU上执行,而不能在32位CPU上运行。 它还告诉你它应在X86-64(Intel / AMD)架构上执行。 二进制文件的入口点是地址0x400430,它只是C源程序中main function的地址。

在其他已知的系统二进制文件(如ls)上尝试使用readelf命令。 请注意,由于安全原因更改了位置无关可执行文件(PIE),因此在RHEL 8或Fedora 30及更高版本的系统上,你的输出(尤其是Type :)可能会有所不同。

使用ldd命令了解ls命令依赖于哪些系统库,如下所示:

在libc库文件上运行readelf以查看它是哪种文件。 正如它指出的那样,它是一个DYN(共享对象文件),这意味着它不能被直接执行。 必须由内部库提供的任意功能的可执行文件使用它。

size:列出部分大小和总大小

size命令仅适用于目标文件和可执行文件,因此,如果您尝试在简单的ASCII文件上运行它,则会出现错误,提示“File format not recognized(无法识别文件格式)”。

现在,从上面的练习中对目标文件和可执行文件运行size。 请注意,根据size命令的输出,可执行文件(a.out)的信息比目标文件(hello.o)的信息多得多:

但text,data和bss sections又意味着什么?

text sections引用二进制文件的代码部分,其中包含所有可执行指令。 data sections是所有初始化数据所在的位置,bss是所有未初始化数据存储的位置。

将size与其他一些可用的系统二进制文件进行比较。

对于ls命令:

查看size命令的输出,可知gcc和gdb是比ls更大的程序:

字符串:打印文件中可打印字符的字符串

通常在字符串命令中添加“-d”标志,用以仅显示数据部分中的可打印字符。

“hello.o”是一个目标文件,其中包含打印出文本“Hello World”的说明。 因此,strings命令的唯一输出是“Hello World”。

另一方面,在a.out(可执行文件)上运行strings,会显示链接阶段二进制文件中包含的其他信息:

回想一下,编译是将源代码指令转换为机器代码的过程。 机器代码仅由1和0组成,人类难以阅读。 因此,它有助于将机器代码表示为汇编语言指令。 汇编语言是什么样的? 请记住,汇编语言是特定于体系结构的; 我使用的是Intel或x86-64架构,如果你使用ARM架构编译相同的程序,指导说明将有所不同。

objdump:显示目标文件中的信息

可以从二进制文件中转出机器语言指令的另一个binutils工具称为“objdump”。

使用“-d”选项,该选项可从二进制文件中反汇编所有汇编指令。

该输出乍一看似乎令人生畏,但在你继续前,请花一点时间理解它。 回想一下,“.text”部分包含所有机器代码指令。 汇编说明可以在第四列中看到(即push,mov,callq,pop,retq)。 这些指令作用于寄存器,寄存器是CPU内置的存储器位置。 本示例中的寄存器是rbp,rsp,edi,eax等,每个寄存器都有特殊含义。

现在,在可执行文件(a.out)上运行objdump,然后查看得到的结果。 可执行文件上objdump的输出可能很大,因此我使用grep命令将其缩至main function:

注意,这些指令与目标文件“hello.o”相似,但是其中包含一些其他信息:

  • 目标文件“hello.o”具有以下指令:callq e
  • 可执行文件“a.out”包含以下指令以及地址和函数:callq 400400 <puts @ plt>

上面的汇编指令正在调用puts函数。请记住,你在源代码中使用了printf函数。编译器插入了对puts库函数的调用,以期将“Hello World”输出到屏幕。

查看puts上方行的说明:

  • 目标文件“hello.o”的指令为mov:mov $ 0x0,%edi
  • 可执行文件“a.out”的指令mov具有实际地址($ 0x4005d0)而不是$ 0x0:mov $ 0x4005d0,%edi

该指令将二进制文件中位于地址$ 0x4005d0的所有内容移动到名为edi的寄存器中。

该存储位置的内容中还有什么?是的,你猜对了:它只不过是文本“Hello,World”。你如何确定?

使用readelf命令可以将二进制文件(a.out)的任何部分转储到屏幕上。以下操作要求它将.rodata(只读数据)转储到屏幕上:

你可以在右侧看到文本“ Hello World”,在左侧看到其二进制地址。 它是否与你在上面的mov指令中看到的地址匹配? 是的,的确匹配。

strip:从目标文件中弃置符号

该命令通常用于将二进制文件运送给客户之前,以减小二进制文件的大小。

请记住,由于重要信息已从二进制文件中删除,因此它会阻碍调试过程。 但是,二进制文件依然可以顺利执行。

在你的a.out可执行文件上运行它,并注意会发生什么。 首先,通过运行以下命令确保二进制文件未被剥离(not stripped):

另外,在运行strip命令之前,请跟踪二进制文件中最初的字节数:

现在,在你的可执行文件上运行strip命令,并使用file命令确保它可以正常工作:

剥离二进制文件后,此小程序的大小从以前的8440字节减小到6296。 这样一个小型程序的空间能被极大节省,难怪大型程序经常被剥离。

addr2line:将地址转换为文件名和行号

addr2line工具只是在二进制文件中查找地址,并将其与C源代码程序中的行进行匹配。 很酷,对吧?

为此编写另一个测试程序; 只有这一次才能确保使用gcc的“-g”标志进行编译,这将为二进制文件添加其他调试信息,并且包含行号(在此处的源代码中提供)也将有所帮助:

使用“-g”标志进行编译并执行。 这里还没有惊喜:

现在使用objdump标识函数开始的内存地址。 您可以使用grep命令来过滤出所需的特定行。 功能的地址在下面突出显示:

现在,使用addr2line工具从二进制文件映射这些地址,以匹配C源代码的地址:

可见40051d在源文件atest.c中的第6行开始,这是function1的起始大括号“{”开始的行。 使function2和main的输出匹配。

nm:列出目标文件中的符号

使用上面的C程序测试nm工具。 使用gcc快速编译并执行。

现在运行nm和grep,获取有关函数和变量的信息:

你可以看到这些函数在text部分中标记为“T”,代表符号,而变量标记为“D”,其代表初始化data部分中的符号。

想象一下在没有源代码的二进制文件上运行此命令有多大用处? 这使你可以窥视内部并了解使用了哪些函数和变量。 当然,除非二进制文件已被剥离,否则它们将不包含任何符号,因此nm命令不会很有帮助,如在此处看到的:

结论

GNU binutils工具为有兴趣分析二进制文件的任何人提供了许多选项,这只是其作用的冰山一角。 阅读每种工具的手册页,了解更多相关使用信息。

0 人点赞