喜欢就点关注吧!
本文总结CNN架构发展的十个经典的网络模型,按提出的年份依次给出。
LeNet-5(1998)
LeNet-5是最简单的架构之一,它有2个卷积层和3个完全连接层。我们现在知道的平均汇集层被称为子采样层,它具有可训练的权重。该架构有大约60,000个参数。
论文
- 论文:Gradient-Based Learning Applied to Document Recognition
- 作者:Yann LeCun,LéonBottou,Yoshua Bengio和Patrick Haffner
- 发表于: IEEE会议论文集(1998)
AlexNet(2012)
AlexNet具有60M参数,AlexNet有8层--5个卷积和3个完全连接。AlexNet在LeNet-5的基础上堆叠了几层。在发表时,作者指出他们的架构是“迄今为止ImageNet子集中最大的卷积神经网络之一”。
论文
- 论文: ImageNet Classification with Deep Convolutional Neural Networks
- 作者: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton
- 发表于: NeurIPS 2012
VGG-16(2014)
提高深度神经网络性能的最直接方法是增加网络的深度。视觉几何组织(VGG)的人们发明了VGG-16,它有13个卷积层和3个完全连接层,带有AlexNet的ReLU传统。同样,这个网络只是在AlexNet的基础上加深网络层。它由138M 参数组成,占用大约500MB的存储空间。并且他们还设计了更深层的变体VGG-19。
论文
- 论文:Very Deep Convolutional Networks for Large-Scale Image Recognition
- 作者:Karen Simonyan,Andrew Zisserman
- arXiv preprint,2014
Inception-v1(2014)
Inception-v1具有5M参数的22层架构。如论文中所述,Inception模块的体系结构设计是近似稀疏结构研究的产物。每个模块提出3个想法:
- 具有不同滤波器的并行卷积塔,随后是串联,以1×1,3×3和5×5捕获不同的特征,从而“聚类”它们。这个想法是由Arora等人提出的。在本文中,Provable学习了一些深层表示,提出了逐层构造,其中应该分析最后一层的相关统计,并将它们聚类成具有高相关性的单元组。
- 1×1卷积用于降低维数以消除计算瓶颈
- 1×1卷积在卷积内增加非线性(基于Network In Network论文)
- 作者还引入了 两个辅助分类器,以鼓励分类器中较低阶段的歧视,增加传播回来的梯度信号,并提供额外的正则化。所述辅助网络(即连接到辅助分类的分支),在推理时间将被丢弃。
论文
- 论文:Going Deeper with Convolutions
- 作者:Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed。谷歌,密歇根大学,北卡罗来纳大学
- 发表于:2015 IEEE计算机视觉和模式识别会议(CVPR)
Inception-v3(2015)
Inception-v3是Inception-v1的后继产品,具有24M参数。那么Inception-v2呢?它是v3的早期原型,因此非常类似于v3但不常用。当作者推出Inception-v2时,他们在其上进行了许多实验,并进行一些调整。Inception-v3是包含这些调整的网络(调整优化器,剪枝功能并向辅助网络中的辅助层添加批量标准化)。Inception-v2和Inception-v3的动机是避免表征性瓶颈(这意味着大幅减少下一层的输入维度),并通过使用因子分解方法进行更有效的计算。
论文
- 论文:Rethinking the Inception Architecture for Computer Vision
- 作者:Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jonathon Shlens,Zbigniew Wojna。谷歌,伦敦大学学院
- 发表于:2016 IEEE计算机视觉和模式识别会议(CVPR)
ResNet-50(2015)
从过去的几个CNN中,我们看到的只是越来越多的网络层,但是随着网络深度的增加,模型越容易达到过饱和。因此微软研究院提出使用残差解决这个问题,同时构建了更深层次的模型。ResNets系列(ResNet-18,ResNet-34,ResNet-50,ResNet-101,ResNet-152)。ResNet也是批量标准化的早期采用者之一(由Ioffe和Szegedy撰写的批量标准论文于2015年提交给ICML)。ResNet-50具有26M参数。
论文
- 论文:Deep Residual Learning for Image Recognition
- 作者:何凯明,张翔宇,任少卿,微软
- 发表于:2016 IEEE计算机视觉和模式识别会议(CVPR)
Xception(2016)
Xception是Inception的改编版,其中Inception模块已被深度可分离卷积替换。它与Inception-v1(23M)的参数数量大致相同。Xception将Inception假设引入eXtreme(因此得名)。
- 首先,通过1×1卷积捕获跨通道(或交叉特征映射)相关性。
- 通过常规的3×3或5×5卷积捕获每个通道内的空间相关性。
将这个想法推向极端意味着对每个通道执行1×1 ,然后对每个输出执行3×3 。这与使用深度可分离卷积替换初始模块相同。
论文
- 论文:Xception: Deep Learning with Depthwise Separable Convolutions
- 作者:FrançoisChollet。谷歌。
- 发表于:2017年IEEE计算机视觉和模式识别大会(CVPR)
Inception- v4(2016)
Inception- v4是Inception-v3的改进。主要区别在于Stem组和Inception-C模块中的一些小变化。作者还为每个网格尺寸的Inception块做出了统一的选择。他们还提到残差连接可以显着提高训练速度。
与Inception-v3相比改进了什么?
- 更改Stem模块
- 添加更多Inception模块
- 统一选择Inception-v3模块,意味着为每个模块使用相同数量的过滤器。
总之,由于模型大小的增加,Inception-v4的效果更好。
论文
- 论文:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning
- 作者:Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke,Alex Alemi。谷歌。
- 发表于:第三十一届AAAI人工智能会议论文集
Inception-ResNet-V2(2016)
Inception-v4的作者还提出了Inception-ResNets 系列的Inception-ResNet-v1和Inception-ResNet-v2。Inception-ResNet-v2为该系列的最后一个成员,共有56M参数。
与Inception-v3版本相比改进了什么?
- 将Inception模块转换为Residual Inception块。
- 添加更多Inception模块
- 在Stem模块之后添加新类型的Inception模块(Inception-A)
论文
- 论文:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning
- 作者:Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke,Alex Alemi。谷歌
- 发表于:第三十一届AAAI人工智能会议论文集
ResNeXt-50(2017)
ResNeXt-50有25M参数(ResNet-50有25.5M)。ResNeXts的不同之处在于在每个模块中添加了并行分支.
论文
- 论文:Aggregated Residual Transformations for Deep Neural Networks
- 作者:Saining Xie,Ross Girshick,PiotrDollár,Zhuowen Tu,Kaiming He。加州大学圣地亚哥分校,Facebook Research
- 发表于:2017年IEEE计算机视觉和模式识别大会(CVPR)
如有总结错误,请评论指正。
参考
https://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d