译者 | 刘畅
编辑 | Jane
出品 | AI科技大本营(ID:rgznai100)
【导语】目前,深度卷积(Depthwise convolution)在追求高性能的卷积网络中的应用变得越来越流行,但很多研究忽略了其内核大小的影响。在本文中,作者系统地研究了不同内核大小的影响,并发现将多种内核大小的优势结合在一起可以带来更高的准确性和性能。基于此观察,作者提出了一种新的混合深度卷积(Mixed Depthwise Convolution, MDConv),它自然地在单个卷积中混合了多个内核大小。作为普通深度卷积的一种简单替代,本文的MDConv提升了现有MobileNet在ImageNet图像分类和COCO目标检测方面的准确性和性能。
通过将 MDConv 集成到AutoML搜索空间中,作者进一步开发了一个名为 MixNets 的系列模型,其性能明显优于以前的模型,包括MobileNetV2(ImageNet top-1精度提升为 4.2%),ShuffleNetV2]( 3.5%),MnasNet( 1.3%),ProxylessNAS( 2.2%)和FBNet( 2.0%)。特别是MixNet-L模型在传统的移动端设备条件(<600M FLOPS)下达到了最新的SOTA结果,ImageNet top-1精度为78.9%。
论文地址:
https://arxiv.org/pdf/1907.09595v3.pdf
代码地址:
https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet.
引言
卷积神经网络(ConvNets)已广泛用于图像分类,检测,分割和许多其他应用。在卷积网络ConvNets设计上的最新趋势是提高准确性和性能。遵循这种趋势,深度卷积在目前的卷积网络中变得越来越流行,例如MobileNet,ShuffleNet,NASNet,AmoebaNet,MnasNet和EfficientNet。与常规卷积不同,深度卷积内核分别应用于每个单独的通道,因此将计算成本降低了C倍,其中C是通道数。在使用深度卷积内核设计卷积网络时,一个重要但经常被忽略的因素是卷积核大小。尽管常规做法是简单地使用3x3内核,但是最近的研究结果表明,较大的卷积核尺寸(例如5x5卷积核和7x7卷积核)可以提高模型的准确性和效率。
在本文中,作者重新回顾了一个基本问题:更大的卷积核是否总是可以获得更高的精度?自从在AlexNet中首次观察到提升以来,众所周知,每个卷积核都负责捕获局部图像模式,该模式可能是早期阶段的边缘或者后期阶段的目标。大卷积核倾向于以更多的参数和计算为代价来捕获具有更多细节的高分辨率模式,但它们总是会提高准确性吗?
为了回答这个问题,本文系统地研究了基于MobileNets的卷积核大小的影响。图1显示了结果。如预期的那样,更大的卷积核大小会使用更多参数显著增加模型大小;当卷积核大小从3x3上升到7x7时,模型精度也跟着提升,但是当卷积核尺寸大于9x9时,模型精度会迅速下降,这表明较大的卷积核尺寸可能会损害精度和性能。实际上,这种观察结果与卷积网络的第一种直觉相吻合:在极端情况下,卷积核大小等于输入分辨率,卷积网络变成了完全连接的网络,众所周知这是非常差的设计方式。这项研究提出了单个卷积核大小的局限性:我们既需要大卷积核来捕获高分辨率模式,又需要小卷积核来捕获低分辨率模式,以提高模型的准确性和性能。
基于此观察,本文提出了一种混合深度卷积(MDConv),它在单个卷积运算中混合了不同的卷积核大小,因此它可以轻松捕获具有各种分辨率的不同模式。图2显示了MDConv的结构,该结构将通道划分为多个组,并对每个通道组应用不同的卷积核大小。作者展示了MDConv是普通深度卷积的一种替代,但它可以显著提高MobileNets在ImageNet图像分类和COCO目标检测上的准确性和性能。
为了进一步证明本文MDConv的有效性,我们利用神经架构搜索开发了名为MixNets的新模型系列。实验结果表明,我们的MixNet模型大大优于所有以前的移动端卷积网络,例如ShuffleNets,MnasNet,FBNet和ProxylessNAS。特别是,本文的中型模型MixNet-M在ImageNet数据集上 top-1达到了77.0%精度,同时使用的参数比ResNet-152少12倍,FLOPS数少31倍。
方法
MDConv的主要思想是在一个深度卷积运算中混合多个具有不同大小的卷积核,以便可以轻松地从输入图像中捕获不同类型的模式。在本节中,作者将讨论MDConv的特征图(feature map)和MDConv的设计选择。
- 3.1 MixConv特征图
其中k是卷积核大小,m是通道数乘子系数,公式2表示的是将卷积分组,公式3是最终的输出向量。
图3显示了实现MixConv的tensorflow代码,在某些平台上面,MixConv可以作为单个操作实现,并使用组卷积进行优化。尽管如此,如图所示,MixConv可以看作是普通深度卷积的简单替代。
- 3.2MixConv设计选择
MixConv是一种灵活的卷积运算,具有多种设计选择。
组大小g:它确定了单个输入张量使用多少种不同类型的卷积核大小。
每组的卷积核大小:从理论上讲,每个组可以具有任意的卷积核大小。但是,如果两个组具有相同的卷积核大小,则将这两个组合并为一个组是等效的,因此本文限制每个组具有不同的卷积核大小。
每组的通道数大小:在本文中,作者主要考虑两种通道数划分方法:(1)等分划分:每个组将具有相同数量的滤波器(2)指数划分:第i个组将占总通道数的2^-i。
扩张卷积:对于大卷积核需要更多的参数和计算,一种替代方法是使用扩张卷积,它可以在不增加额外参数的情况下,增加感受野。但是扩张卷积的精度通常不如大卷积核。
- 3.3在移动端网络上评估MixConv性能
ImageNet分类性能对比:
COCO检测性能对比:
实验
为了进一步证明MDConv的有效性,作者利用神经结构搜索开发了基于MDConv的新模型家族,即MixNets。
- 4.1网络结构搜索
本文的神经架构搜索设置与MnasNet, FBNet和ProxylessNAS相似,后者采用MobileNetV2作为baseline网络结构,去搜索最佳的卷积核大小,扩展比,通道大小和其他选择。本文与其不同的是采用了MDConv作为了搜索选项。更具体点,本文有五个不同组大小(Group size)的MDConv候选.
为了简化搜索过程,作者没有在搜索空间中包含指数通道分区(exponential channel partition)或扩张卷积(dilated convolutions),将它们集成到以后的工作中也属于无关痛痒。
与最近的神经架构搜索方法类似,本文直接在ImageNet训练集上进行搜索,然后从搜索结构中选择了一些在ImageNet验证集和迁移学习数据集上性能最高的模型,。
4.2在ImageNet数据集上MixNet的性能
表2显示了MixNets在ImageNet数据集上的性能。在这里,本文从神经架构搜索中获得MixNet-S和M,并使用深度系数1.3放大MixNet-M获得了MixNet-L。所有模型都使用与MnasNet相同的设置进行训练。
总的来说,本文的MixNets明显优于最新的移动端卷积神经网络:与最新手工设计的模型相比,在相同FLOPS数的约束下,本文的MixNets的top-1准确性比MobileNetV2提高了4.2%,比ShuffleNetV2提高了3.5%。与最新的自动化模型相比,在类似的FLOPS约束下,我们的MixNets的准确度明显高于MnasNet( 1.3%),FBNets( 2.0%),ProxylessNAS( 2.2%)。特别是,在经典的移动端FLOPS(<600M)设置下,本文的MixNet-L达到了78.9%的top-1精度。与普遍使用的ResNets相比,本文的MixNet-M达到了相同的77%top-1精度,同时使用的参数比ResNet-152少12倍,FLOPS少31倍。
图7可视化了ImageNet的性能,作者观察到,与以前的手工移动卷积网络相比,神经架构搜索的最新进展显著改善了模型性能。但是,通过引入一种新的高效MDConv,本文可以基于相同的神经架构搜索技术进一步提高模型的准确性和性能。
- 4.3 网络架构
为了理解为什么本文的MixNet能获得更高的准确性和性能,图8展示了表2中的MixNet-S和MixNet-M网络架构。通常,它们都使用各种MDConv,并且整个网络中的卷积核大小不同:在早期阶段为了节省计算成本,小卷积核更常见,而在后期阶段为了获得更高的精度,大卷积核更为常见。作者还观察到,更大的MixNet-M倾向于使用更大的卷积核和更多的层,以追求更高的精度,但需要更多的参数和FLOPS。与采用大卷积核的普通深度卷积会严重降低精度不同,本文的MixNets可以利用9x9和11x11等超大核从输入图像中获得高分辨率的模式,而不会损害模型的准确性和效率。
总结
在本文中,作者重新审视了卷积核大小对深度卷积的影响,并确定传统的深度卷积会受到单个卷积核大小的限制。为了解决这个问题,作者提出了MDConv,它在单个操作中混合了多个卷积核以利用不同的卷积核大小。作者展示了MDConv是对普通深度卷积的一种简单替代,还提高了MobileNets在图像分类和目标检测任务上的准确性和性能。基于本文提出的MDConv卷积,作者使用神经结构搜索技术进一步开发了一个新的MixNet模型系列。实验结果表明,在ImageNet分类和四个广泛使用的迁移学习数据集上,本文的MixNet比所有最新的移动端卷积网络都有明显更高的准确性和性能。
(*本文为AI科技大本营编译文章,转载请微信联系 1092722531)