(5)500行代码手写docker-实现硬件资源限制cgroups
本系列教程主要是为了弄清楚容器化的原理,纸上得来终觉浅,绝知此事要躬行,理论始终不及动手实践来的深刻,所以这个系列会用go语言实现一个类似docker的容器化功能,最终能够容器化的运行一个进程。
本章的源码已经上传到github,地址如下:
代码语言:shell复制https://github.com/HobbyBear/tinydocker/tree/chapter5
之前我们对容器的网络命名空间,文件系统命名空间都进行了配置,说到底这些都是为了资源更好的隔离,但是他们无法办到对硬件资源使用的隔离,比如,cpu,内存,带宽,而今天要介绍的cgroups技术便能够对硬件资源的使用产生隔离。
cgroups技术简介
cgroups技术是内核提供的功能,可以通过虚拟文件系统接口对其进行访问和更改。mount 命令可以查看cgroups在虚拟文件系统下的挂载目录。
代码语言:shell复制root@ecs-295280:~# mount | grep cgroup
tmpfs on /sys/fs/cgroup type tmpfs (ro,nosuid,nodev,noexec,mode=755)
cgroup2 on /sys/fs/cgroup/unified type cgroup2 (rw,nosuid,nodev,noexec,relatime,nsdelegate)
cgroup on /sys/fs/cgroup/systemd type cgroup (rw,nosuid,nodev,noexec,relatime,xattr,name=systemd)
cgroup on /sys/fs/cgroup/blkio type cgroup (rw,nosuid,nodev,noexec,relatime,blkio)
cgroup on /sys/fs/cgroup/net_cls,net_prio type cgroup (rw,nosuid,nodev,noexec,relatime,net_cls,net_prio)
cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,nosuid,nodev,noexec,relatime,cpuset)
cgroup on /sys/fs/cgroup/perf_event type cgroup (rw,nosuid,nodev,noexec,relatime,perf_event)
cgroup on /sys/fs/cgroup/freezer type cgroup (rw,nosuid,nodev,noexec,relatime,freezer)
cgroup on /sys/fs/cgroup/pids type cgroup (rw,nosuid,nodev,noexec,relatime,pids)
cgroup on /sys/fs/cgroup/cpu,cpuacct type cgroup (rw,nosuid,nodev,noexec,relatime,cpu,cpuacct)
cgroup on /sys/fs/cgroup/devices type cgroup (rw,nosuid,nodev,noexec,relatime,devices)
cgroup on /sys/fs/cgroup/memory type cgroup (rw,nosuid,nodev,noexec,relatime,memory)
cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,nosuid,nodev,noexec,relatime,hugetlb)
cgroup on /sys/fs/cgroup/rdma type cgroup (rw,nosuid,nodev,noexec,relatime,rdma)
root@ecs-295280:~#
一般默认的挂载目录是在/sys/fs/cgroup 目录下,系统内核在开机时,会默认挂载cgroup目录。这样便能通过访问文件的方式对cgroup功能进行使用。
在/sys/fs/cgroup/ 目录下,我们看到的每个目录例如cpu,blkio被称作subsystem子系统,每个子系统下可以设置各自要管理的进程id。
代码语言:shell复制root@ecs-295280:~# ls /sys/fs/cgroup/
blkio cpu,cpuacct freezer net_cls perf_event systemd
cpu cpuset hugetlb net_cls,net_prio pids unified
cpuacct devices memory net_prio rdma
拿cpu这个目录下的文件举例
代码语言:shell复制root@ecs-295280:/sys/fs/cgroup/cpu# ls
cgroup.clone_children cpuacct.usage_percpu_sys cpu.stat
cgroup.procs cpuacct.usage_percpu_user ebpf-agent
cgroup.sane_behavior cpuacct.usage_sys hostguard
cpuacct.stat cpuacct.usage_user notify_on_release
cpuacct.usage cpu.cfs_period_us release_agent
cpuacct.usage_all cpu.cfs_quota_us tasks
cpuacct.usage_percpu cpu.shares
root@ecs-295280:/sys/fs/cgroup/cpu# ll -l
在cpu子系统这个目录下,有两个文件cgroup.procs,tasks文件,它们都是用来管理cgroup中的进程。但是,它们的使用方式略有不同:
cgroup.procs文件用于向cgroup中添加或删除进程,只需要将进程的task id写入该文件即可。
tasks文件则是用于将整个进程组添加到cgroup中。如果将一个进程组的pid写入tasks文件,则该进程组中的所有进程都会被添加到cgroup中。
进程被加入到这个cgroup组以后,其使用的cpu带宽将会受到cpu.cfs_quota_us和cpu.cfs_period_us的影响。通过shell命令查看他们的内容。
代码语言:shell复制root@ecs-295280:/sys/fs/cgroup/cpu/test# cat cpu.cfs_period_us
100000
root@ecs-295280:/sys/fs/cgroup/cpu/test# cat cpu.cfs_quota_us
-1
默认情况下,cpu.cfs_period_us是100000,单位是微秒,cpu.cfs_period_us代表了cpu运行一个周期的时长,100000代表了100ms,cpu.cfs_quota_us代表进程所占用的周期时长,-1代表不限制进程使用cpu周期时长,如果cpu.cfs_quota_us是50000(50ms)则代表在cpu一个调度周期内,该cgroup下的进程最多只能运行半个周期,如果达到了运行周期的限制,那么它必须等待下一个时间片才能继续运行了。
命名行实践下cgroups隔离特性
我们来实验下:
对cpu使用率进行限制
在cpu的一级目录下,是包含了当前系统所有进程,为了不影响它们,我们在cpu的一级目录下创建一个test目录,然后单独的在test目录中的tasks文件加入进程id。