十幅插图带你了解CNN架构

2019-07-31 15:26:25 浏览数 (2)

喜欢就点关注吧!

本文总结CNN架构发展的十个经典的网络模型,按提出的年份依次给出。

LeNet-5(1998)

LeNet-5是最简单的架构之一,它有2个卷积层和3个完全连接层。我们现在知道的平均汇集层被称为子采样层,它具有可训练的权重。该架构有大约60,000个参数。

论文

  • 论文:Gradient-Based Learning Applied to Document Recognition
  • 作者:Yann LeCun,LéonBottou,Yoshua Bengio和Patrick Haffner
  • 发表于: IEEE会议论文集(1998)

AlexNet(2012)

AlexNet具有60M参数,AlexNet有8层--5个卷积和3个完全连接。AlexNet在LeNet-5的基础上堆叠了几层。在发表时,作者指出他们的架构是“迄今为止ImageNet子集中最大的卷积神经网络之一”。

论文

  • 论文: ImageNet Classification with Deep Convolutional Neural Networks
  • 作者: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
  • 发表于: NeurIPS 2012

VGG-16(2014)

提高深度神经网络性能的最直接方法是增加网络的深度。视觉几何组织(VGG)的人们发明了VGG-16,它有13个卷积层和3个完全连接层,带有AlexNet的ReLU传统。同样,这个网络只是在AlexNet的基础上加深网络层。它由138M 参数组成,占用大约500MB的存储空间。并且他们还设计了更深层的变体VGG-19。

论文

  • 论文:Very Deep Convolutional Networks for Large-Scale Image Recognition
  • 作者:Karen Simonyan,Andrew Zisserman
  • arXiv preprint,2014

Inception-v1(2014)

Inception-v1具有5M参数的22层架构。如论文中所述,Inception模块的体系结构设计是近似稀疏结构研究的产物。每个模块提出3个想法:

  • 具有不同滤波器的并行卷积塔,随后是串联,以1×1,3×3和5×5捕获不同的特征,从而“聚类”它们。这个想法是由Arora等人提出的。在本文中,Provable学习了一些深层表示,提出了逐层构造,其中应该分析最后一层的相关统计,并将它们聚类成具有高相关性的单元组。
  • 1×1卷积用于降低维数以消除计算瓶颈
  • 1×1卷积在卷积内增加非线性(基于Network In Network论文)
  • 作者还引入了 两个辅助分类器,以鼓励分类器中较低阶段的歧视,增加传播回来的梯度信号,并提供额外的正则化。所述辅助网络(即连接到辅助分类的分支),在推理时间将被丢弃。

论文

  • 论文:Going Deeper with Convolutions
  • 作者:Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed。谷歌,密歇根大学,北卡罗来纳大学
  • 发表于:2015 IEEE计算机视觉和模式识别会议(CVPR)

Inception-v3(2015)

Inception-v3是Inception-v1的后继产品,具有24M参数。那么Inception-v2呢?它是v3的早期原型,因此非常类似于v3但不常用。当作者推出Inception-v2时,他们在其上进行了许多实验,并进行一些调整。Inception-v3是包含这些调整的网络(调整优化器,剪枝功能并向辅助网络中的辅助层添加批量标准化)。Inception-v2和Inception-v3的动机是避免表征性瓶颈(这意味着大幅减少下一层的输入维度),并通过使用因子分解方法进行更有效的计算。

论文

  • 论文:Rethinking the Inception Architecture for Computer Vision
  • 作者:Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jonathon Shlens,Zbigniew Wojna。谷歌,伦敦大学学院
  • 发表于:2016 IEEE计算机视觉和模式识别会议(CVPR)

ResNet-50(2015)

从过去的几个CNN中,我们看到的只是越来越多的网络层,但是随着网络深度的增加,模型越容易达到过饱和。因此微软研究院提出使用残差解决这个问题,同时构建了更深层次的模型。ResNets系列(ResNet-18,ResNet-34,ResNet-50,ResNet-101,ResNet-152)。ResNet也是批量标准化的早期采用者之一(由Ioffe和Szegedy撰写的批量标准论文于2015年提交给ICML)。ResNet-50具有26M参数。

论文

  • 论文:Deep Residual Learning for Image Recognition
  • 作者:何凯明,张翔宇,任少卿,微软
  • 发表于:2016 IEEE计算机视觉和模式识别会议(CVPR)

Xception(2016)

Xception是Inception的改编版,其中Inception模块已被深度可分离卷积替换。它与Inception-v1(23M)的参数数量大致相同。Xception将Inception假设引入eXtreme(因此得名)。

  • 首先,通过1×1卷积捕获跨通道(或交叉特征映射)相关性。
  • 通过常规的3×3或5×5卷积捕获每个通道内的空间相关性。

将这个想法推向极端意味着对每个通道执行1×1 ,然后对每个输出执行3×3 。这与使用深度可分离卷积替换初始模块相同。

论文

  • 论文:Xception: Deep Learning with Depthwise Separable Convolutions
  • 作者:FrançoisChollet。谷歌。
  • 发表于:2017年IEEE计算机视觉和模式识别大会(CVPR)

Inception- v4(2016)

Inception- v4是Inception-v3的改进。主要区别在于Stem组和Inception-C模块中的一些小变化。作者还为每个网格尺寸的Inception块做出了统一的选择。他们还提到残差连接可以显着提高训练速度。

与Inception-v3相比改进了什么?

  • 更改Stem模块
  • 添加更多Inception模块
  • 统一选择Inception-v3模块,意味着为每个模块使用相同数量的过滤器。

总之,由于模型大小的增加,Inception-v4的效果更好。

论文

  • 论文:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning
  • 作者:Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke,Alex Alemi。谷歌。
  • 发表于:第三十一届AAAI人工智能会议论文集

Inception-ResNet-V2(2016)

Inception-v4的作者还提出了Inception-ResNets 系列的Inception-ResNet-v1和Inception-ResNet-v2。Inception-ResNet-v2为该系列的最后一个成员,共有56M参数。

与Inception-v3版本相比改进了什么?

  • 将Inception模块转换为Residual Inception块。
  • 添加更多Inception模块
  • 在Stem模块之后添加新类型的Inception模块(Inception-A)

论文

  • 论文:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning
  • 作者:Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke,Alex Alemi。谷歌
  • 发表于:第三十一届AAAI人工智能会议论文集

ResNeXt-50(2017)

ResNeXt-50有25M参数(ResNet-50有25.5M)。ResNeXts的不同之处在于在每个模块中添加了并行分支.

论文

  • 论文:Aggregated Residual Transformations for Deep Neural Networks
  • 作者:Saining Xie,Ross Girshick,PiotrDollár,Zhuowen Tu,Kaiming He。加州大学圣地亚哥分校,Facebook Research
  • 发表于:2017年IEEE计算机视觉和模式识别大会(CVPR)

如有总结错误,请评论指正。

参考

https://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d

0 人点赞