4.2 深度卷积网络
“吴恩达老师课程原地址[1]参考文献 Inception 网络 --Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[J]. 2014:1-9.
2.5 网络中的网络与 1*1 卷积
Network in Network
- 在架构内容设计方面,一个比较有帮助的想法是使用
的卷积。输入一张
的单通道图片,使用一个
的小卷积核。结果相当于把原有的像素对应乘以 2.
- 对于单通道的图片看不出什么效果,但是如果是一张
的图片,卷积核大小为
的具有 32 个通道的卷积核,卷积效果不错。
- 具体而言,即是遍历原始图片的 36 个单元格,计算左图中 32 个通道中的数字和卷积核中 32 个数字的元素的智能乘积(对应位置的乘积加和)。然后应用 ReLU 非线性函数。
也被称为 Network in Network
示例
- 假设输入层的大小为
的 192 个通道的特征图,想要使 192 个通道的特征图压缩为具有 32 个通道的特征图,则可以使用 32 个
的卷积核对这个特征图进行卷积操作。具体而言,一般只需要设置卷积核的长和宽而无需设置卷积核的通道数维度。因为一般而言卷积核的第三个维度是和原始特征图的通道数量保持一致的。
2.6 谷歌 Inception 网络简介
问题引入
- 当构建卷积层时,你要决定卷积核的大小究竟是
还是
或者是
.并且什么时候加入池化层。这些都是十分繁琐而纠结的。
- 而 Inception 网络的作用就是代替你来做决定以构建网络的结构。虽然网络结构因此变得更加复杂,但是网络变现却非常好。
Inception 网络原理
- Inception 网络可以代替人工来确定卷积层中卷积核的类型,或者确定是否需要创建卷积层或池化层。
- 假设输入为
的具有 192 个通道的图片。以下卷积都是通过"SAME"方式进行卷积。使用 64 个
的卷积核得到的特征图大小为
,如果使用 128 个
的卷积核进行卷积,得到的特征图的大小为
.如果使用 32 个
的卷积核进行卷积,得到的特征图的大小为
.此时将三个特征图堆叠在一起。
- 当然你也可以直接使用最大值池化层,输出的结果为
。也将结果特征图堆叠在一起。为了使所有的特征图长和宽一致,需要对池化层也使用 Padding=“SAME”操作。
- 此时,这个堆叠起来的
的结构被称为"Inception 模块"
- 基本思想是 Incetion 网络不需要人为决定使用哪个过滤器,或者是否需要池化,而是由网络自行决定确定这些参数。你可以给模块增加这些参数,然后把这些输出连接起来,让网络自己学习它需要什么样的参数,采用哪些过滤器组合。
Inception 网络计算成本
- 假设 Inception 网络的输入是一个
的具有 192 个通道的特征图片,使用 32 个
的卷积核以 Padding="SAME"的方式进行卷积,则输出为
- 使用了 32 个过滤器,每个过滤器的大小为
因为输入图片的信道数量为 192。所以对于输出特征图中的
个节点每一个都需要进行
次乘法运算,即每个输出值所需的乘法运算次数乘以输出值的个数。
使用 Network in Network 瓶颈层降低网络的计算成本
- 使用 16 个
的卷积核把输入值从 192 个信道减少到 16 个信道。然后对于这个小的特征图,使用 32 个
的卷积核得到最终输出。
- 注意这种方式下得到的
的特征图和上文中的特征图的维度一致。
- 目的就是将左边较大的特征图压缩成较小的中间层,这个中间层有时被称为瓶颈层(bottleneck layer)
- 此时瓶颈层所有神经元的计算成本为
- 第二个卷积层得计算成本为
- 所以这两层的计算成本之和为
这使得原来的 120M 的计算成本降低成大约原来的 10 分之 1 即 12.4M,所需的加法次数与乘法次数相近,所以只统计了乘法运算的次数。
- 事实证明,只要合理构建瓶颈层,你既可以显著的缩小表示层规模又不会降低网络性能,从而大大节省了计算
2.7Inception 网络 GoogleNet
- 所有卷积和池化操作均使用 Padding="SAME"卷积/池化方式
- Inception 网络即是 Inception 模块的重复拼接,其中插有额外的有池化层来改变模型的宽度和高度。
- Inception 网络是一个可调整的网络,其可以根据需要只是用网络中的部分节点进行预测和分类。即在网络中有全连接层和 Sofxmax 分类分支用以进行分类。
参考资料
[1]
吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm