十幅插图带你了解CNN架构

喜欢就点关注吧!

本文总结CNN架构发展的十个经典的网络模型，按提出的年份依次给出。

LeNet-5(1998)

LeNet-5是最简单的架构之一，它有2个卷积层和3个完全连接层。我们现在知道的平均汇集层被称为子采样层，它具有可训练的权重。该架构有大约60,000个参数。

论文

论文：Gradient-Based Learning Applied to Document Recognition
作者：Yann LeCun，LéonBottou，Yoshua Bengio和Patrick Haffner
发表于： IEEE会议论文集（1998）

AlexNet（2012）

AlexNet具有60M参数，AlexNet有8层--5个卷积和3个完全连接。AlexNet在LeNet-5的基础上堆叠了几层。在发表时，作者指出他们的架构是“迄今为止ImageNet子集中最大的卷积神经网络之一”。

论文

论文: ImageNet Classification with Deep Convolutional Neural Networks
作者: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
发表于: NeurIPS 2012

VGG-16（2014）

提高深度神经网络性能的最直接方法是增加网络的深度。视觉几何组织（VGG）的人们发明了VGG-16，它有13个卷积层和3个完全连接层，带有AlexNet的ReLU传统。同样，这个网络只是在AlexNet的基础上加深网络层。它由138M 参数组成，占用大约500MB的存储空间。并且他们还设计了更深层的变体VGG-19。

论文

论文：Very Deep Convolutional Networks for Large-Scale Image Recognition
作者：Karen Simonyan，Andrew Zisserman
arXiv preprint，2014

Inception-v1(2014)

Inception-v1具有5M参数的22层架构。如论文中所述，Inception模块的体系结构设计是近似稀疏结构研究的产物。每个模块提出3个想法：

具有不同滤波器的并行卷积塔，随后是串联，以1×1,3×3和5×5捕获不同的特征，从而“聚类”它们。这个想法是由Arora等人提出的。在本文中，Provable学习了一些深层表示，提出了逐层构造，其中应该分析最后一层的相关统计，并将它们聚类成具有高相关性的单元组。
1×1卷积用于降低维数以消除计算瓶颈
1×1卷积在卷积内增加非线性（基于Network In Network论文）
作者还引入了两个辅助分类器，以鼓励分类器中较低阶段的歧视，增加传播回来的梯度信号，并提供额外的正则化。所述辅助网络（即连接到辅助分类的分支），在推理时间将被丢弃。

论文

论文：Going Deeper with Convolutions
作者：Christian Szegedy，Wei Liu，Yangqing Jia，Pierre Sermanet，Scott Reed。谷歌，密歇根大学，北卡罗来纳大学
发表于：2015 IEEE计算机视觉和模式识别会议（CVPR）

Inception-v3(2015)

Inception-v3是Inception-v1的后继产品，具有24M参数。那么Inception-v2呢？它是v3的早期原型，因此非常类似于v3但不常用。当作者推出Inception-v2时，他们在其上进行了许多实验，并进行一些调整。Inception-v3是包含这些调整的网络（调整优化器，剪枝功能并向辅助网络中的辅助层添加批量标准化）。Inception-v2和Inception-v3的动机是避免表征性瓶颈（这意味着大幅减少下一层的输入维度），并通过使用因子分解方法进行更有效的计算。

论文

论文：Rethinking the Inception Architecture for Computer Vision
作者：Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jonathon Shlens，Zbigniew Wojna。谷歌，伦敦大学学院
发表于：2016 IEEE计算机视觉和模式识别会议（CVPR）

ResNet-50（2015）

从过去的几个CNN中，我们看到的只是越来越多的网络层，但是随着网络深度的增加，模型越容易达到过饱和。因此微软研究院提出使用残差解决这个问题，同时构建了更深层次的模型。ResNets系列（ResNet-18，ResNet-34，ResNet-50，ResNet-101，ResNet-152）。ResNet也是批量标准化的早期采用者之一（由Ioffe和Szegedy撰写的批量标准论文于2015年提交给ICML）。ResNet-50具有26M参数。

论文

论文：Deep Residual Learning for Image Recognition
作者：何凯明，张翔宇，任少卿，微软
发表于：2016 IEEE计算机视觉和模式识别会议（CVPR）

Xception（2016）

Xception是Inception的改编版，其中Inception模块已被深度可分离卷积替换。它与Inception-v1（23M）的参数数量大致相同。Xception将Inception假设引入eXtreme（因此得名）。

首先，通过1×1卷积捕获跨通道（或交叉特征映射）相关性。
通过常规的3×3或5×5卷积捕获每个通道内的空间相关性。

将这个想法推向极端意味着对每个通道执行1×1 ，然后对每个输出执行3×3 。这与使用深度可分离卷积替换初始模块相同。

论文

论文：Xception: Deep Learning with Depthwise Separable Convolutions
作者：FrançoisChollet。谷歌。
发表于：2017年IEEE计算机视觉和模式识别大会（CVPR）

Inception- v4(2016)

Inception- v4是Inception-v3的改进。主要区别在于Stem组和Inception-C模块中的一些小变化。作者还为每个网格尺寸的Inception块做出了统一的选择。他们还提到残差连接可以显着提高训练速度。

与Inception-v3相比改进了什么？

更改Stem模块
添加更多Inception模块
统一选择Inception-v3模块，意味着为每个模块使用相同数量的过滤器。

总之，由于模型大小的增加，Inception-v4的效果更好。

论文

论文：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning
作者：Christian Szegedy，Sergey Ioffe，Vincent Vanhoucke，Alex Alemi。谷歌。
发表于：第三十一届AAAI人工智能会议论文集

Inception-ResNet-V2（2016）

Inception-v4的作者还提出了Inception-ResNets 系列的Inception-ResNet-v1和Inception-ResNet-v2。Inception-ResNet-v2为该系列的最后一个成员，共有56M参数。

与Inception-v3版本相比改进了什么？

将Inception模块转换为Residual Inception块。
添加更多Inception模块
在Stem模块之后添加新类型的Inception模块（Inception-A）

论文

论文：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning
作者：Christian Szegedy，Sergey Ioffe，Vincent Vanhoucke，Alex Alemi。谷歌
发表于：第三十一届AAAI人工智能会议论文集

ResNeXt-50（2017）

ResNeXt-50有25M参数（ResNet-50有25.5M）。ResNeXts的不同之处在于在每个模块中添加了并行分支.

论文

论文：Aggregated Residual Transformations for Deep Neural Networks
作者：Saining Xie，Ross Girshick，PiotrDollár，Zhuowen Tu，Kaiming He。加州大学圣地亚哥分校，Facebook Research
发表于：2017年IEEE计算机视觉和模式识别大会（CVPR）

如有总结错误，请评论指正。

参考

https://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d

图像处理模式识别

0 人点赞