一、介绍
什么是eBPF,它能做什么?
之前一个老板说“xxx组的同学是一定要把eBPF用到得心应手”,因为之前是做性能压测相关工作,个人感觉压测其实并不复杂,复杂的是压测后的问题定位,而eBPF则是定位问题的有效工具,我们可以透过eBPF去洞悉内核的运行状态,帮助我们去做故障诊断、网络优化、性能监控、以及安全控制等生产环境中的各种问题。
eBPF全称“Extended Berkeley Packet Filter”,翻译来就是“扩展的伯克利数据包过滤器”,所以:
- 叫做“伯克利数据包过滤器”的BPF究竟个什么?
- eBPF又扩展了BPF什么?
在4.x以后的内核版本中,bpf已经成为了内核的一个顶级子程序,提供了更多强大的能力,具体可查
其实现在我们所提到的BPF即是eBPF,最早BPF只是简单的为非内核开发同学提供了一种安全的内核控制机制,可以在内核事件以及用户事件发生时安全的注入代码,但随着内核的发展,BPF的功能随之丰富以及扩展,从最早的数据包过滤扩展到了网络、内核、安全等,后被称为eBPF
eBPF有哪些应用?
- 动态追踪:bcc、bpftrace
- 观测监控:Pixie、Hubble、kubectl-trace
- 网络:Cilium、Katran
- 安全:Falco、Tracee
二、开发环境搭建
- linux环境:支持eBPF最新特性的内核版本需要5.X以及避免第一次学习就要重新编译内核麻烦推荐Ubuntu 20.10 、Debian 11 ,可以使用云机器、也可以使用vgrant虚拟机;
- LLVM:可以将eBPF程序编写成BPF bytecode;
- make:C语言编译工具;
- BBC:BPF工具集和它所以来的头文件;
- libbpf:与内核代码仓库实时同步;
- pbftool:内核代码提供的 eBPF 程序管理工具;
# 创建和启动Ubuntu 21.10虚拟机
vagrant init ubuntu/impish64
vagrant up
# 登录到虚拟机
vagrant ssh
# 安装依赖以及工具s
sudo apt-get install -y make clang llvm libelf-dev libbpf-dev bpfcc-tools libbpfcc-dev linux-tools-$(uname -r) linux-headers-$(uname -r)
三、原理简介
pbf系统在eBPF诞生后,成为了内核的一个顶级子系统
BPF的设计?
- 内核态引入虚拟机
- 用户态使用BPF字节码来定义过滤表达式然后传给内核通过虚拟机进行解释
ePBF程序工作?
需要靠事件进行触发,且可以通过kprobe合uprobe在内核的任意位置插桩
ePBF程序的运行的主要阶段?
添加描述
eBPF程序执行过程
- 编译:将eBPF程序转成BPF bytecode
- 加载:特权进程通过pbf系统调用将BPF bytecode提交给内核(pbf系统在eBPF诞生后,成为了内核的一个顶级子系统)
- 验证:在执行前进行安全性校验,如无限循环、不能导致内核崩溃、可完成等,保证eBPF程序操作的安全性
- 内核态执行:通过kprobo、uprobe、perf_event等方式调用
用户态程序与内核态程序交互?
BPF映射
四、eBPFcase
一个完整的eBPFcase分三部分:内核态eBPF程序(c语言编写)、用户态程序(可用python的BCC库写)
建议两个程序对着看,内核态和用户态程序的每行代码基本都能对得上、包括参数、事件、等
代码语言:javascript复制root@ubuntu-impish:/home/ebpf-test# tree
.
├── hello.c
└── hello.py
0 directories, 2 files
内核态eBPF程序(c语言编写)
hello.c
代码语言:javascript复制// 包含头文件
#include <uapi/linux/openat2.h>
#include <linux/sched.h>
// 定义数据结构
struct data_t {
u32 pid;
u64 ts;
char comm[TASK_COMM_LEN];
char fname[NAME_MAX];
};
// 定义性能事件映射
BPF_PERF_OUTPUT(events);
// 定义kprobe处理函数
int hello_world(struct pt_regs *ctx, int dfd, const char __user * filename, struct open_how *how)
{
struct data_t data = { };
// 获取PID和时间
data.pid = bpf_get_current_pid_tgid();
data.ts = bpf_ktime_get_ns();
// 获取进程名
if (bpf_get_current_comm(&data.comm, sizeof(data.comm)) == 0)
{
bpf_probe_read(&data.fname, sizeof(data.fname), (void *)filename);
}
// 提交性能事件
events.perf_submit(ctx, &data, sizeof(data));
return 0;
}
- 数据结构 data_t & BPF_PERF_OUTPUT(events) :填充该数据结构,并通过BPF_PERF_OUTPUT来定义perf事件类型的BPF映射,用户态进程可以直接从 BPF 映射中读取内核 eBPF 程序的运行状态;
- 函数hello_world:定义kprobe处理函数,以 bpf 开头的函数都是 eBPF 提供的辅助函数;
用户态程序(可用python的BCC库写)
hello.py
代码语言:javascript复制from bcc import BPF
# 1) load BPF program
b = BPF(src_file="hello.c")
b.attach_kprobe(event="do_sys_openat2", fn_name="hello_world")
# 2) print header
print("%-18s %-16s %-6s %-16s" % ("TIME(s)", "COMM", "PID", "FILE"))
# 3) define the callback for perf event
start = 0
def print_event(cpu, data, size):
global start
event = b["events"].event(data)
if start == 0:
start = event.ts
time_s = (float(event.ts - start)) / 1000000000
print("%-18.9f %-16s %-6d %-16s" % (time_s, event.comm, event.pid, event.fname))
# 4) loop with callback to print_event
b["events"].open_perf_buffer(print_event)
while 1:
try:
b.perf_buffer_poll()
except KeyboardInterrupt:
exit()
- 第 1) 处跟前面的 Hello World 一样,加载 eBPF 程序并挂载到内核探针上;
- 第 2) 处则是输出一行 Header 字符串表示数据的格式;
- 第 3) 处的 print_event 定义一个数据处理的回调函数,打印进程的名字、PID 以及它调用 openat 时打开的文件;
- 第 4) 处的 open_perf_buffer 定义了名为 “events” 的 Perf 事件映射,而后通过一个循环调用 perf_buffer_poll 读取映射的内容,并执行回调函数输出进程信息。
执行eBPF程序
代码语言:javascript复制sudo python3 hello.py