作者:Tony Shin 编译:ronghuaiyang
导读
给大家介绍一种新的网络架构,用来做物体检测的,SOTA。
到目前为止,在COCO数据集上表现最好的物体检测网络是CBNet,在COCO测试数据集上的平均精度为53.3。
作者声称,合并一个更强大的主干可以提高目标探测器的性能。为了做到这一点,他们提出了一种新的策略,通过相邻的主干之间的复合连接来装配多个相同的主干。通过这样做,他们提出了一个更强大的主干,称为复合主干网络。
如图所示,CBNet由多个相同的主干网络和相邻主干之间的复合连接组成。从左到右,每个阶段的输出在一个辅助主干网中,这也可以看作是高层次的特征。每个特征层的输出通过组合连接作为输入的一部分流到后续主干的并行级。通过这样做,将多个高级和低级特性融合在一起,以生成更丰富的特征表示。
本文介绍了两种架构:双骨干网(DB)和三骨干网(TB)。从命名中可以猜到,DB由两个相同的主干组成,TB由三个相同的主干组成。性能差异将在本文后面讨论。
为了从主干中组合多个输出,本文引入了一个组合连接块。该块由一个1x1卷积和一个批处理归一化层组成。添加这些层是为了减少通道的数量并执行上采样操作。
最后的主干(在图中最右边)称为领导主干,用于物体检测。领导主干的输出特征被输入到RPN/检测头,而每个辅助主干的输出被输入到相邻的主干。
组合风格
有四种主干组合的形式:
- 相邻的高级组合是前面部分中介绍的样式。来自辅助主干网的每个输出特征使用复合连接块输入到相邻的主干网中。
- 同层组合是另一种简单的合成样式,它将前一个主干的相邻低层阶段的输出提供给后一个主干。如图所示,此样式不使用复合连接块。来自低层主干网的特征被直接添加到相邻的主干网中。
- 邻近的低层组合非常类似于AHLC。唯一不同的是,来自前一个主干网底层的特征被传递给后续的主干网。
- 稠密的高层组合的灵感来自DenseNet,每一层都连接到所有后续的层,在一个阶段建立一个稠密的连接。
上表显示了不同组合风格的对比。我们可以观察到,AHLC样式优于其他复合样式。这背后的原因在论文中有很好的解释。作者认为,将前一个主干的低层特征直接添加到后续主干的高层特征中,会损害后一个主干的语义信息。另一方面,在后续主干的浅层特征基础上增加前一主干的深层特征,可以增强后一主干的语义信息。
结果
上表显示了MS-COCO测试数据集的检测结果。第5-7列是物体检测结果,第8-10列是实例分割结果。它清楚地表明,使用更多的骨干架构提高了网络的性能。
结论
文章提出了一种新型的网络结构 — CBNet。通过组合多个主干结构,该网络将检测网络的精度提高了约1.5%到3%。
增加的参数大小和训练时间值得进一步研究。
—END—
英文原文:https://medium.com/swlh/cbnet-a-novel-composite-backbone-network-architecture-for-object-detection-review-88b79a838ef1