通过Linux设备映射器使用持久内存设备
IO Alignment Considerations
传统的存储设备例如HDD,SSD,nvme,SAN LUNS等以blocks为单位提供存储功能。Block以字节为单位的可寻址存储单元。传统的硬盘的block大小是512字节。Newer设备通常是4K或者8K,但也可以选择逻辑/模拟的512字节的block。
持久内存设备可以通过虚拟内存系统访问,因此IO可以使用系统页大小进行对齐。位于CPU上的内存管理单元(MMU)决定可能的页面大小。Linux支持两种页大小:
Ø 默认页大小,通常4KB。Linux通常将其作为页表条目。
Ø 大页:需要内核支持配置CONFIG_HUBETLB_PAGE和CONFIG_HUGETLBFS。通常称为页面中间目录(PMD),大页大小通常为2MB
页面大小是内存使用和速度之间的折中:
Ø 大页造成空间浪费。
Ø 大内存容量下小页:需要大量的页表条目,从而需要更大内核内存保持页表
Ø 小页可能需要更多时间进行页表遍历。尤其是TLB未命中计数较高情况下。
DDR和持久内存模块之间的容量差异相当大,由于上述原因,内存为TB级的系统上使用较小页面可能会对性能带来负面影响。
使用getconf命令获取系统默认页大小,下面页面大小是4KB:
$ getconf PAGE_SIZE
4096
或:
$ getconf PAGESIZE
4096
通过cat /proc/meminfo|grep -i hugepage验证系统是否支持大页:
.....
HugePages_Total: uuu
HugePages_Free: vvv
HugePages_Rsvd: www
HugePages_Surp: xxx
Hugepagesize: yyy kB
Hugetlb: zzz kB
.....
根据处理器不同,x86_64架构下至少有两种大页大小:2M和1G。如果CPU支持2M,那么会有PSE cpuinfo flag,而1G的有PDPE1GB flag。/proc/cpuinfo显示这两种标签的设置。如果这些命令返回非空字符串,那么支持2M:
$ grep pse /proc/cpuinfo | uniq
flags : [...] pse [...]
如果下面命令返回非空字符串,支持1G:
$ grep pdpe1gb /proc/cpuinfo | uniq
flags : [...] pdpe1gb [...]
Verifying IO Alignment
需满足下面条件,DAX文件系统才能支持2M大页:
Ø mmap()至少映射2M
Ø 文件系统块分配的大小至少2M
Ø 文件系统块分配必须与mmap具有相同的对齐方式
原文
https://pmem.io/2018/05/15/using_persistent_memory_devices_with_the_linux_device_mapper.html