地址:https://arxiv.org/pdf/2006.11538.pdf
github:https://github.com/iduta/pyconv
目前的卷积神经网络普遍使用3×3的卷积神经网络,通过堆叠3×3的卷积核和下采样层,会在减少图像的大小的同时增加感受野,使用小尺度的卷积核存在两个问题:
- 实际感受野的大小比理论上的感受野大小要小得多。
- 在没有获得足够的上下文信息之前就对输入图像进行下采样,会影响学习过程和网络的识别性能。由于感受野不足够大来捕获场景中不同的依赖,以至于有用的细节就损失掉了。
大体来说就是不同对象在不同场景中可能出现各种各样的大小,或者在同一场景中,相同对象也可能出现不同的大小,使用传统的3×3卷积就不能够学习到这种多样性。
主要贡献:提出了金字塔卷积,能够捕获不同层级的细节信息,该网络是有效的,与标准的卷积相比只增加了少量的参数量和计算量,并将该网络扩展到了图像分类、场景识别、语义分割、目标检测、视频分类中。
直接看金字塔卷积,很直观的就是在空间维度上,卷积核大小从上至下依次减少,在通道维度上,卷积核的数量(通道的数目)依次增加,最后这些特征图拼接起来。
这里要提一下参数量parameters和浮点数计算量FLOPs的计算公式:
K_{1}表示的是卷积核的大小,FM_{i}表示输入特征图的通道数,FM_{o} 表示输出的通道数,W、H表示输出特征图的宽和高。
另一个就是组卷积:
将特征按通道进行分组,然后分别进行卷积操作。
上述分别说明了每一个层的卷积操作所带来的参数量和浮点数计算量。
另外还强调了,为了简便创造出不同的金字塔卷积的网络,每层的金字塔卷积输入的特征图数目、每层的金字塔的分组通道数、每层的金字塔卷积的输出特征图数目最好是2的幂。
金字塔卷积网络应用在图像分类中?
瓶颈金字塔残差块:
所提出的网络结构:
需要注意的是该网络与原始的残差网络相比,去掉了最初的max pooling。也就是说现在4组卷积块都是在第一个block是进行下采样的。具体原因还是直接看英文比较好:
其余的任务就不仔细看了,知道大体架构差不多了。
金字塔卷积网络应用在语义分割中?
金字塔卷积网络应用在目标检测中?
部分结果: