看了一下2016年的WWDC关于优化启动时间的PPT,有些感悟和总结,记录一下。
这篇文章你能学到什么
理论:
- 我们在进入mian()函数之前发生了什么事情
- Mach -O的格式
- 虚拟内存基础知识
- 二进制Mach -O怎么被加载和准备
实用部分:
- 怎么去计算启动时间
- 优化启动时间
Mach -O、虚拟内存速成课
主要简单的介绍了Mach -O和虚拟内存的知识,下文在app启动的时会有很多相关的术语,不知道会懵逼。
Mach-O为Mach Object文件格式的缩写,它是一种用于可执行文件,目标代码,动态库,内核转储的文件格式。作为a.out格式的替代,Mach-O提供了更强的扩展性,并提升了符号表中信息的访问速度。 Mach-O曾经为大部分基于Mach核心的操作系统所使用。NeXTSTEP,Darwin和Mac OS X等系统使用这种格式作为其原生可执行文件,库和目标代码的格式。而同样使用GNU Mach作为其微内核的GNU Hurd系统则使用ELF而非Mach-O作为其标准的二进制文件格式。
深度了解可以看下这篇文章:探秘 Mach-O 文件
Mach-O术语
文件类型:
- Executable:应用的主要二进制文件(比如.o文件)
- Dylib:动态库(又称 DSO 或 DLL)
- Bundle: 资源文件,不能被链接的 Dylib,只能在运行时使用 dlopen() 加载
Image:指的是Executable,Dylib或者Bundle的一种,文中会多次使用Image这个名词。 Framework:动态库和对应头文件和资源的集合
Mach-O文件
介绍了 Mach-O内部结构,每个分区和如何支持不同架构等。
1、 Mach-O被分为下图的几个segment:
- __TEXT : 代码段 ,只读,包括函数,和只读的字符串,上图中类似__TEXT,__text的都是代码段
- __DATA: 数据段,读写,包括可读写的全局变量等,上图类似中的__DATA,__data都是数据段
- __LINKEDIT :包含了方法和变量的元数据(位置,偏移量),以及代码签名等信息。
2、每个segment又划分为不同的Sections
不同section区域存放内容:
- Text.__text: 主程序代码
- Text.__cstring:c 字符串
- Text.__stubs:桩代码(桩代码就是用来代替某些代码的代码)
- Text.__stub_helper
- Data.__data :初始化可变的数据
- Data.__objc_imageinfo: 镜像信息 ,在运行时初始化时 objc_init,调用 load_images 加载新的镜像到 infolist 中
- Data.__la_symbol_ptr
- Data.__nl_symbol_ptr
- Data.__objc_classlist :类列表
- Data.__objc_classrefs :引用的类
3、Mach-O的通用文件
在不同的架构内存的分配是不同的,那么怎么做一个兼容架构的Mach-O文件?
Fat Header来解决这个问题,在运行时根据架构来判断选择Mach-O文件。
虚拟内存
虚拟内存是在物理内存上建立的一个逻辑地址空间,它向上(应用)提供了一个连续的逻辑地址空间,向下隐藏了物理内存的细节。虚拟内存使得逻辑地址可以没有实际的物理地址,也可以让多个逻辑地址对应到一个物理地址。虚拟内存被划分为一个个大小相同的Page(64位系统上是16KB),提高管理和读写的效率。 Page又分为只读和读写的Page。
虚拟内存是建立在物理内存和进程之间的中间层。在iOS上,当内存不足的时候,会尝试释放那些只读的Page,因为只读的Page在下次被访问的时候,可以再从磁盘读取。如果没有可用内存,会通知在后台的App(也就是在这个时候收到了memory warning),如果在这之后仍然没有可用内存,则会杀死在后台的App。
APP启动
app启动的时候,内核会把app映射到一个新的内存空间,开始地址是随机的。
然后内核通过Dyld来加载动态库。
dyld(the dynamic link editor)是苹果的动态链接器,是苹果操作系统一个重要组成部分,在系统内核做好程序准备工作之后,交由dyld负责余下的工作。而且它是开源的,任何人可以通过苹果官网下载它的源码来阅读理解它的运作方式,了解系统加载动态库的细节。
详解传送门
Dyld 链接过程
- 递归映射所有的动态库
- Rebase所有的镜像
- Bind镜像
- objc runtime 准备
- 初始化
1、加载动态库步骤
- 解析依赖所有的动态库
- 找到请求的mach-o 文件
- 打开读取文件
- 验证mach-o 文件
- 签名
- 调用每个segment
mmap()
函数
等到所有直接依赖的动态库加载完成,加载动态库依赖的其他动态库,这样重复进行。 一个app通常会加载400多个动态库,大多数是系统库,系统库大多数都被优化加载过程 ,所以优化的关注点在于内嵌动态库。
为了保证加载完之后,保证Rebase、Bind、Objc过程动态库相关不变,所以要加签名。
2、Rebase
ASLR:全称是Address space layout randomization,翻译过来就是“地址空间布局随机化”。App被启动的时候,程序会被影射到逻辑的地址空间,这个逻辑的地址空间有一个起始地址,而ASLR技术使得这个起始地址是随机的。如果是固定的,那么黑客很容易就可以由起始地址 偏移量找到函数的地址。
为什么需要Rebase? 是因为刚刚提到的ASLR使得地址随机化,导致起始地址不固定,另外由于Code Sign,导致不能直接修改Image。Rebase的时候只需要增加对应的偏移量即可。待Rebase的数据都存放在__LINKEDIT中。
Rebasing:调整镜像内部指针
我们可以使用命令行查看Rebase和Bind信息:
2、Binding
Binding:调整指向镜像外部的指针
问:为什么需要Binding? 答:引用动态库其他的函数或者变量,当前mach-o文件会指向其他dylib。这时候就需要Binding操作完成这些活,Dyld会根据符号表去找到相应函数和变量地址。
Bind相对于Rebase有更复杂的计算,更少的page fault
3、Notify ObjC Runtime
完成Rebase和Bind之后,通知Runtime去做一些代码运行时需要做的事情。
需要做哪些事情:
- 大多数的Objc初始化在rebasing和binding之后完成
- 所有的objc 类的定义在这时候被注册
- non-fragile 属性偏移量调整更新(non-fragile ivar 是在modern runtime新增特性,为了不需要重新编译调整变量内存分布)
- 类别被插入方法列表
- 方法器的独特性
4、Initializers
完成objc的相关工作之后,需要完成动态库一些初始化工作:
- c 为静态分配的对象生成初始化器
- ObjC load 方法
- 运行“自下而上”,这样每个初始化器都可以调用它下面的dylibs
- 最后,Dyld在可执行文件中调用main()
Pre-main() 总结
pre-mian 阶段主要是Dyld做的工作:
- 深度加载依赖的动态库
- 修正DATA pages的指针
- 运行初始化工作
篇幅有限,这边总结了原理,下篇总结启动时间优化相关。
参考:WWDC 2016: Optimizing App Startup Time https://juejin.im/post/5ab47ca1518825611a406a39 https://blog.csdn.net/hello_hwc/article/details/78317863