[DeeplearningAI笔记]卷积神经网络2.2经典网络

2020-08-14 14:23:53 浏览数 (1)

4.2 深度卷积网络

吴恩达老师课程原地址[1]

参考文献 [LeNet]--Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324. [AlexNet]--Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105. [VGG-16]--Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.

2.2 经典网络

LeNet-5

  • LeNet 针对的是单通道的灰度图像
  • 原始图像为
32*32*1

的单通道灰度图像

  • 第一层使用的是
6个5*5

的卷积核,步长为 1,Padding 为 0,图像尺寸缩小到

28*28
  • 接着使用池化窗口为
2*2

的平均池化窗口,其中步长为 2。当时更趋向于使用平均池化方法,现在更倾向于使用最大池化方法。--输出的结果是一个

14*14*6

的图像。

  • 第二层使用的是
16个5*5

的卷积核,步长为 1,Padding 为 0,图像尺寸缩小到

10*10

。当时几乎不使用 Padding 填充的方法,所以每次池化后特征图大小都会变小。

  • 接着使用池化窗口为
2*2

的平均池化窗口,其中步长为 2。则输出的结果是一个

5*5*16

的图像。

  • 紧接着是一个具有 120 个节点的全连接层 FC1,其和上一层的高级特征图中的 400 个节点进行全连接,而后是全连接层 FC2,有 84 个神经元,最后与输出神经元相连接得到模型最终的输出。
讨论
  • 其对现在的启发是:随着网络层数的递增,使用的卷积核的个数增加,特征图的高度和宽度逐渐减小,而深度逐渐增加。
  • 过去人们使用 Sigmoid 函数和 Tanh 函数,现在主要使用 ReLU 函数。
  • 各网络层之间存在连接,每个卷积核的信道数和其输入的信道数相同。

AlexNet

  • AlexNet 首先用一张
227*227*3

的图片作为输入,实际上原文使用的图像是

224*224*3

作为输入,但是如果你尝试输入会发现

227*227

这个尺寸更好一些。

  • 第一层使用 96 个
11*11

的卷积核,步幅为 4,因此图像尺寸缩小到

55*55

,然后使用一个

3*3

的池化窗口构建最大池化层,步幅为 2,则此时特征图尺寸缩小为

27*27*96

  • 第二层使用 256 个
5*5

的卷积核,使用“SAME”模式进行填充,则得到

27*27*256

的特征图。接着使用

3*3

的池化窗口构建最大池化层,步长为 2,则此时特征图尺寸缩小为

13*13*256
  • 第二层使用 256 个
5*5

的卷积核,使用“SAME”模式进行填充,则得到

27*27*256

的特征图。接着使用

3*3

的池化窗口构建最大池化层,步长为 2,则此时特征图尺寸缩小为

13*13*256
  • 第三层使用 384 个
3*3

的卷积核,使用“SAME”模式进行填充,则得到

13*13*384

的特征图。连续对特征图进行三次卷积操作,均使用“SAME”模式,卷积核个数分别为“384”,“384”,“256”之后使用

3*3

池化窗口的池化层对其进行池化操作,且池化步长为 2.最终得到

6*6*256

大小的特征图。

  • 将其展开为 9216 个单元,然后接上两个具有 4096 个神经元节点的全连接层,最后连接上一个单独的 Softmax 函数用以输出识别的结果。
讨论
  • AlexNet 网络比 LeNet-5 网络要大的多,LeNet-5 网络大约有 6 万个参数,AlexNet 网络包含约 6000 万个参数。这使得其能识别更多的特征。
  • AlexNet 网络比 LeNet-5 网络表现更为出色的另一个原因是因为它使用了 ReLU 激活函数
  • 对于 AlexNet,其使用了 LRN 的结构(局部响应归一化),简单而言是在中间特征图中每一个点上所有信道的值进行归一化操作。由于有研究证明其效果并不明显,所以我们并没有在此进行详细介绍。

[lrn 局部响应归一化示意图]

VGG-16

  • VGG-16 并没有太多的超参数,其只专注于构建卷积层的简单网络
  • 首先用
3*3

的卷积核,步幅为 1,构建卷积层,Padding="SAME",然后使用

2*2

的卷积核,步幅为 2,构建最大池化层。

  • 对于一个
224*224*3

的图片,使用 64 个上述卷积核进行两次卷积操作,得到

224*224*64

的特征图,再使用上述池化方式对其进行池化操作,得到

112*112*64

的特征图。再对其使用 128 个上述卷积核进行两次卷积操作后得到

112*112*128

的特征图。接着使用上述池化方式对其进行池化操作,得到

56*56*128

的特征图。再使用 256 个上述卷积核对特征图进行三次卷积操作得到

56*56*256

的特征图。再池化,512 个卷积核卷积三次,池化,512 个卷积核卷积三次,池化。最终得到

7*7*512

结构的特征图,然后进行全连接操作.后接两个具有 4096 个节点的全连接层,最后接上 Softmax 节点。具体网络结构如下图所示:

讨论
  • VGG-16 指的是这个网络包含 16 个卷积层和全连接层,总共包含 1.38 亿个参数。虽然网络较大,参数量多,但是结构并不复杂。网络结构十分规整。
  • 每一层的卷积核个数都进行翻倍,所以特征图中的信道数量也增加一倍,很有规律性,从这一点来说,这篇文章十分吸引人。

参考资料

[1]

吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm

0 人点赞