手把手教你用Dropwatch诊断问题

2021-12-14 08:37:47 浏览数 (1)

老实说,Dropwatch 并不是什么新鲜玩意,很多年前霸爷就专门撰文介绍过它,通过它可以大概找出系统为什么会丢包,其原理就是跟踪 kfree_skb 的调用行为。不过虽然很多人知道它的存在,但是却并不知道如何具体使用它,所以我写下了这篇文字。

以 CentOS 为例,动手前需要了解系统的版本,并确保已经安装了对应的包:

代码语言:javascript复制
shell> uname -r
2.6.32-431.23.3.el6.x86_64

shell> rpm -qa | grep kernel
kernel-2.6.32-431.23.3.el6.x86_64
kernel-debuginfo-common-x86_64-2.6.32-431.23.3.el6.x86_64

Dropwatch 本身有一个交互命令行,命令中的 kas 指的是加载对应的符号表:

代码语言:javascript复制
shell> dropwatch -l kas
Initalizing kallsyms db

dropwatch> start
Enabling monitoring...
Kernel monitoring activated.
Issue Ctrl-C to stop monitoring
298 drops at init_dummy_netdev 50 (0xffffffff81459d10)
1 drops at init_dummy_netdev 50 (0xffffffff81459d10)
14 drops at init_dummy_netdev 50 (0xffffffff81459d10)

说明:有案例报道直接通过 dropwatch -l kas 使用 /proc/kallsyms 符号表,可能会造成宕机(我没遇到),如果碰到可以使用 /boot/System.Map 符号表(隶属于 kernel 包)。

在本例子中,Dropwatch 显示在 init_dummy_netdev 附近存在大量丢包现象,提示信息格式的大致说明是:丢包数量 drops at 函数名 偏移量 (地址)。

下面让我们看看为什么会提示丢包,直接在符号表里搜索:

代码语言:javascript复制
shell> grep -w -A 10 init_dummy_netdev /proc/kallsyms
ffffffff81459cc0 T init_dummy_netdev
ffffffff81459d10 t net_tx_action
ffffffff81459ed0 T __napi_complete
ffffffff81459f10 T netdev_drivername
ffffffff81459f70 T __dev_getfirstbyhwtype
ffffffff81459ff0 T dev_getfirstbyhwtype
ffffffff8145a040 t unlist_netdevice
ffffffff8145a120 t dev_unicast_flush
ffffffff8145a1d0 t dev_addr_discard
ffffffff8145a260 T __dev_remove_pack
ffffffff8145a310 T dev_add_pack

可见 init_dummy_netdev 的地址是 ffffffff81459cc0,加上偏移量 50 等于 ffffffff81459d10,正好是 net_tx_action 的地址(注:如果计算后的地址在两个函数之间,那么取前者),于是我们得出结论,实际丢包是发生在 net_tx_action 函数中。

搞清楚了案发地,接下来可以通过 kernel-debuginfo-common 包来获取源代码路径,在本例子中,安装对应的包后执行命令显示源代码位于 /usr/src/debug 目录:

代码语言:javascript复制
shell> rpm -ql kernel-debuginfo-common-x86_64
/usr/src/debug/kernel-2.6.32-431.23.3.el6

前面提到过系统通过跟踪 kfree_skb 来确认丢包的,那么看看 kfree_skb 的定义:

代码语言:javascript复制
void __kfree_skb(struct sk_buff *skb)
{
    skb_release_all(skb);
    kfree_skbmem(skb);
}
EXPORT_SYMBOL(__kfree_skb);

void kfree_skb(struct sk_buff *skb)
{
    if (unlikely(!skb))
        return;
    if (likely(atomic_read(&skb->users) == 1))
        smp_rmb();
    else if (likely(!atomic_dec_and_test(&skb->users)))
        return;
    trace_kfree_skb(skb, __builtin_return_address(0));
    __kfree_skb(skb);
}
EXPORT_SYMBOL(kfree_skb);

实际上起作用的是 trace_kfree_skb,所以直接或间接调用 trace_kfree_skb 和 kfree_skb 的地方就意味着有丢包,不过需要说明的是 __kfree_skb 不表示丢包,可以无视。

有了如上的准备工作,下面开始搜索 net_tx_action 的源代码:

代码语言:javascript复制
shell> grep -wr net_tx_action /usr/src/debug

终于可以看到庐山真面目了,2.6.32 版本的 net_tx_action 源代码如下:

代码语言:javascript复制
static void net_tx_action(struct softirq_action *h)
{
    struct softnet_data *sd = &__get_cpu_var(softnet_data);

    if (sd->completion_queue) {
        struct sk_buff *clist;

        local_irq_disable();
        clist = sd->completion_queue;
        sd->completion_queue = NULL;
        local_irq_enable();

        while (clist) {
            struct sk_buff *skb = clist;
            clist = clist->next;

            WARN_ON(atomic_read(&skb->users));
            trace_kfree_skb(skb, net_tx_action);
            __kfree_skb(skb);
        }
    }

...

根据之前的分析,我们可以推断出就是在 trace_kfree_skb(skb, net_tx_action); 这一行丢的包。通常找到代码中丢包的具体位置后,我们需要做的就是代码前后看看是否触发了什么限制,比如说队列太小了,缓冲不够之类的,不过在本例子中,看上去是清除完成队列里的数据,这并没有什么问题。以 dropwatch net_tx_action 为关键字去搜索后找到一篇文章:net_tx_action: Call trace_consume_skb() instead of trace_kfree_skb(),似乎验证了我们之前的猜测,带着疑惑查看最新版本代码中 net_tx_action 的源代码:

代码语言:javascript复制
static __latent_entropy void net_tx_action(struct softirq_action *h)
{
    struct softnet_data *sd = this_cpu_ptr(&softnet_data);

    if (sd->completion_queue) {
        struct sk_buff *clist;

        local_irq_disable();
        clist = sd->completion_queue;
        sd->completion_queue = NULL;
        local_irq_enable();

        while (clist) {
            struct sk_buff *skb = clist;
            clist = clist->next;

            WARN_ON(atomic_read(&skb->users));
            if (likely(get_kfree_skb_cb(skb)->reason
                == SKB_REASON_CONSUMED))
                trace_consume_skb(skb);
            else
                trace_kfree_skb(skb, net_tx_action);

            if (skb->fclone != SKB_FCLONE_UNAVAILABLE)
                __kfree_skb(skb);
            else
                __kfree_skb_defer(skb);
        }

        __kfree_skb_flush();
	}

...

果然,在新版本的源代码中区分了 trace_consume_skb 和 trace_kfree_skb 的使用,而我们知道 trace_kfree_skb 表示丢包,而 trace_consume_skb 是无害的,至此我们可以基本确定:在本例子中所谓的丢包是旧版本内核的误判。虽然这次纠错过程最终被证实为虚惊一场,但是相信大家在过程中已经学会了如何使用 Dropwatch。

补充:dropwatch 的用法稍显复杂,大家可以试试 perf:

代码语言:javascript复制
shell> perf record -g -a -e skb:kfree_skb
shell> perf script

详细说明参阅:Finding out if/why a server is dropping packets。

0 人点赞