秘闻 | 卷积神经网络的那些秘密

卷积神经网络CNN Convolutional Neural Networks是包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

卷积神经网络CNN，是深度学习算法应用最成功的领域之一，卷积神经网络包括一维卷积神经网络，二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络主要用于序列类的数据处理，二维卷积神经网络常应用于图像类文本的识别，三维卷积神经网络主要应用于医学图像以及视频类数据识别。

本篇文章就来讲述几种常见的卷积神经网络

LeNet

LeNet是卷积神经网络的祖师爷LeCun在1998年提出，用于解决手写数字识别的视觉任务。自那时起，CNN的最基本的架构就定下来了：卷积层、池化层、全连接层。

上图为LeNet结构图，是一个6层网络结构：三个卷积层，两个下采样层和一个全连接层（图中C代表卷积层，S代表下采样层，F代表全连接层）。其中，C5层也可以看成是一个全连接层，因为C5层的卷积核大小和输入图像的大小一致，都是5*5。

如今各大深度学习框架中所使用的LeNet都是简化改进过的LeNet-5（-5表示具有5个层），和原始的LeNet有些许不同，比如把激活函数改为了现在很常用的ReLu。

以下图为例，对经典的LeNet-5做深入分析：

分析如下：

代码语言：javascript复制

首先输入图像是单通道的28*28大小的图像，用矩阵表示就是[1,28,28]
第一个卷积层conv1所用的卷积核尺寸为5*5，滑动步长为1，卷积核数目为20，那么经过该层后图像尺寸变为24，28-5 1=24，输出矩阵为[20,24,24]。
第一个池化层pool核尺寸为2*2，步长2，这是没有重叠的max pooling，池化操作后，图像尺寸减半，变为12×12，输出矩阵为[20,12,12]。
第二个卷积层conv2的卷积核尺寸为5*5，步长1，卷积核数目为50，卷积后图像尺寸变为8,这是因为12-5 1=8，输出矩阵为[50,8,8].
第二个池化层pool2核尺寸为2*2，步长2，这是没有重叠的max pooling，池化操作后，图像尺寸减半，变为4×4，输出矩阵为[50,4,4]。
pool2后面接全连接层fc1，神经元数目为500，再接relu激活函数。
再接fc2，神经元个数为10，得到10维的特征向量，用于10个数字的分类训练，送入softmaxt分类，得到分类结果的概率output。

LeNet网络特点

1.每个卷积层包括三部分：卷积、池化和非线性激活函数（sigmoid激活函数）。

2.使用卷积提取空间特征。

3.下采样层采用平均池化。

AlexNet

AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。在2012年ImageNet竞赛中以超过第二名10.9个百分点的绝对优势一举夺冠，从此深度学习和卷积神经网络名声鹊起，深度学习的研究如雨后春笋般出现，AlexNet的出现可谓是卷积神经网络的王者归来。

AlexNet的结构及参数如上图所示，是8层网络结构（忽略激活，池化，LRN，和dropout层）,有5个卷积层和3个全连接层，第一卷积层使用大的卷积核，大小为11*11，步长为4，第二卷积层使用5*5的卷积核大小，步长为1，剩余卷积层都是3*3的大小，步长为1。激活函数使用ReLu（虽然不是他发明，但是他将其发扬光大），池化层使用重叠的最大池化，大小为3*3，步长为2。在全连接层增加了dropout，第一次将其实用化。

AlexNet的特点：

1.更深的网络结构。

2.使用层叠的卷积层，即卷积层卷积层池化层来提取图像的特征。

3.使用Dropout抑制过拟合。

4.使用数据增强Data Augmentation抑制过拟合。

5.使用Relu替换之前的sigmoid的作为激活函数。

6.多GPU训练。

VggNet

VGGNet是牛津大学计算机视觉组和Google DeepMind公司一起研发的深度卷积神经网络，并取得了2014年Imagenet比赛定位项目第一名和分类项目第二名。该网络主要是泛化性能很好，容易迁移到其他的图像识别项目上，可以下载VGGNet训练好的参数进行很好的初始化权重操作，VGG版本很多，常用的是VGG16，VGG19网络。

下面这个图就是VGG-16的网络结构：

由上图看出，VGG-16的结构非常整洁，深度较AlexNet深得多，里面包含多个conv->conv->max_pool这类的结构,VGG的卷积层都是same的卷积，即卷积过后的输出图像的尺寸与输入是一致的，它的下采样完全是由max pooling来实现。

VGG网络后接3个全连接层，filter的个数（卷积后的输出通道数）从64开始，然后每接一个pooling后其成倍的增加。

VGGNet网络特点：

1.VGGNet拥有5段卷积，每段卷积内有2-3个卷积层，同时每段尾部都会连接一个最大池化层（用来缩小图片）。

2.每段内的卷积核数量一样，越后边的段内卷积核数量越多，依次为:64-128-256-512-512。

3.越深的网络效果越好。

4.LRN层作用不大（论文作者结论）。

5.1*1的卷积也是很有效的，但是没有3*3的卷积好，大一些的卷积核可以学习更大的空间特征。

GoogLeNet

GoogLeNet在2014的ImageNet分类任务上击败了VGG-Nets夺得冠军，其实力肯定是非常深厚的，GoogLeNet跟AlexNet,VGG-Nets这种单纯依靠加深网络结构进而改进网络性能的思路不一样，它另辟幽径，在加深网络的同时（22层），也在网络结构上做了创新，引入Inception结构代替了单纯的卷积激活的传统操作（这思路最早由Network in Network提出）。GoogLeNet进一步把对卷积神经网络的研究推上新的高度。