1.GiraffeDet介绍
论文:https://arxiv.org/abs/2202.04256
摘要:在传统的目标检测框架中,继承自图像识别模型的骨干主体提取深度潜在特征,然后由颈部模块融合这些潜在特征来获取不同尺度的信息。由于目标检测的分辨率远大于图像识别,因此主干的计算代价往往占主导地位。这种重主干设计范式主要是由于将图像识别模型转移到目标检测时的历史遗留问题,而不是目标检测的端到端优化设计。在这项工作中,我们表明,这种范式确实导致次优的目标检测模型。为此,我们提出了一个新的重颈范式,GiraffeDet,一个类似长颈鹿的网络,用于有效的目标检测。GiraffeDet使用了一个非常轻量的主干和一个非常深而大的颈部模块,这鼓励了不同空间尺度之间密集的信息交换,同时也鼓励了不同层次的潜在语义。这种设计范式使检测器即使在网络的早期阶段,也能以同样的优先级处理高级语义信息和低级空间信息,提高了检测任务的效率。对多个流行目标检测基准的数值评估表明,在广泛的资源约束范围内,GiraffeDet始终优于以前的SOTA模型。
本文是阿里巴巴在目标检测领域的工作(已被ICLR2022接收),提出了一种新颖的类“长颈鹿”的GiraffeDet架构,它采用了轻骨干、重Neck的架构设计范式。所提GiraffeDet在COCO数据集上取得了比常规CNN骨干更优异的性能,取得了54.1%mAP指标,具有更优异的处理目标大尺度变化问题的能力。
本文提出了GiraffeDet用于高效目标检测,giraffe包含轻量space-to-depth chain、Generalized-FPN以及预测网络
FPN旨在对CNN骨干网络提取的不同分辨率的多尺度特征进行融合。上图给出了FPN的进化,从最初的FPN到PANet再到BiFPN。我们注意到:这些FPN架构仅聚焦于特征融合,缺少了块内连接。因此,我们设计了一种新的路径融合GFPN:包含跳层与跨尺度连接,见上图d。
2. GFPN引入到Yolov8
2.1修改modules.py
核心代码:
代码语言:javascript复制class CSPStage(nn.Module):
def __init__(self,
ch_in,
ch_out,
n=1,
block_fn='BasicBlock_3x3_Reverse',
ch_hidden_ratio=1.0,
act='silu',
spp=False):
super(CSPStage, self).__init__()
split_ratio = 2
ch_first = int(ch_out // split_ratio)
ch_mid = int(ch_out - ch_first)
self.conv1 = ConvBNAct(ch_in, ch_first, 1, act=act)
self.conv2 = ConvBNAct(ch_in, ch_mid, 1, act=act)
self.convs = nn.Sequential()
next_ch_in = ch_mid
for i in range(n):
if block_fn == 'BasicBlock_3x3_Reverse':
self.convs.add_module(
str(i),
BasicBlock_3x3_Reverse(next_ch_in,
ch_hidden_ratio,
ch_mid,
act=act,
shortcut=True))
else:
raise NotImplementedError
if i == (n - 1) // 2 and spp:
self.convs.add_module(
'spp', SPP(ch_mid * 4, ch_mid, 1, [5, 9, 13], act=act))
next_ch_in = ch_mid
self.conv3 = ConvBNAct(ch_mid * n ch_first, ch_out, 1, act=act)
def forward(self, x):
y1 = self.conv1(x)
y2 = self.conv2(x)
mid_out = [y1]
for conv in self.convs:
y2 = conv(y2)
mid_out.append(y2)
y = torch.cat(mid_out, axis=1)
y = self.conv3(y)
return y