YoloV5/YoloV7改进---注意力机制:引入GCNet,效果优于SENet

2023-11-30 16:31:15 浏览数 (1)

1. GCNet

论文:https://arxiv.org/pdf/1904.11492.pdf

SENet用全局上下文对不同通道进行权值重标定,来调整通道依赖。然而,采用权值重标定的特征融合,不能充分利用全局上下文。通过严格的实验分析,作者发现non-local network的全局上下文在不同位置几乎是相同的,这表明学习到了无位置依赖的全局上下文。

基于上述观察,本文提出了GCNet,即能够像NLNet一样有效的对全局上下文建模,又能够像SENet一样轻量。

与传统的 non-local block不同,Eqn 3 中的 secondterm 独立于查询位置 i ii,这意味着该术语在所有查询位置 i ii 之间共享。 因此直接将全局上下文建模为所有位置特征的加权平均值,并将全局上下文特征聚合(添加)到每个查询位置的特征。在实验中,我们直接用我们简化的non-local block(SNL)替换non-local block(NL),并评估三个任务的准确性和计算成本,COCO上的对象检测,ImageNet分类和动作识别,如表所示如图 2(a)、4(a) 和 5 所示。正如我们预期的那样,SNL block实现了与 NL block相当的性能,但 FLOP 显着降低。

3. GCNet加入yolov5

3.1 加入common.py中:

代码语言:javascript复制
###################### GCNet  GlobalContext   ####     end   by  AI&CV  ###############################
import torch
from torch import nn as nn
import torch.nn.functional as F
from timm.models.layers.create_act import create_act_layer, get_act_layer
from timm.models.layers.helpers import make_divisible
from timm.models.layers.mlp import ConvMlp
from timm.models.layers.norm import LayerNorm2d


class GlobalContext(nn.Module):

    def __init__(self, channels, use_attn=True, fuse_add=False, fuse_scale=True, init_last_zero=False,
                 rd_ratio=1./8, rd_channels=None, rd_divisor=1, act_layer=nn.ReLU, gate_layer='sigmoid'):
        super(GlobalContext, self).__init__()
        act_layer = get_act_layer(act_layer)

        self.conv_attn = nn.Conv2d(channels, 1, kernel_size=1, bias=True) if use_attn else None

        if rd_channels is None:
            rd_channels = make_divisible(channels * rd_ratio, rd_divisor, round_limit=0.)
        if fuse_add:
            self.mlp_add = ConvMlp(channels, rd_channels, act_layer=act_layer, norm_layer=LayerNorm2d)
        else:
            self.mlp_add = None
        if fuse_scale:
            self.mlp_scale = ConvMlp(channels, rd_channels, act_layer=act_layer, norm_layer=LayerNorm2d)
        else:
            self.mlp_scale = None

        self.gate = create_act_layer(gate_layer)
        self.init_last_zero = init_last_zero
        self.reset_parameters()

    def reset_parameters(self):
        if self.conv_attn is not None:
            nn.init.kaiming_normal_(self.conv_attn.weight, mode='fan_in', nonlinearity='relu')
        if self.mlp_add is not None:
            nn.init.zeros_(self.mlp_add.fc2.weight)

    def forward(self, x):
        B, C, H, W = x.shape

        if self.conv_attn is not None:
            attn = self.conv_attn(x).reshape(B, 1, H * W)  # (B, 1, H * W)
            attn = F.softmax(attn, dim=-1).unsqueeze(3)  # (B, 1, H * W, 1)
            context = x.reshape(B, C, H * W).unsqueeze(1) @ attn
            context = context.view(B, C, 1, 1)
        else:
            context = x.mean(dim=(2, 3), keepdim=True)

        if self.mlp_scale is not None:
            mlp_x = self.mlp_scale(context)
            x = x * self.gate(mlp_x)
        if self.mlp_add is not None:
            mlp_x = self.mlp_add(context)
            x = x   mlp_x

        return x

###################### GCNet  GlobalContext   ####     end   by  AI&CV  ###############################

​2.3 yolov5s_GCnet_GlobalContext.yaml

代码语言:javascript复制
# YOLOv5 


	

0 人点赞