用全连接层替代掉卷积 -- RepMLP

2021-06-01 20:53:02 浏览数 (1)

用全连接层替代掉卷积 -- RepMLP

这次给大家介绍一个工作， “RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”，是最近MLP热潮中的一篇有代表性的文章。

其github链接为https://github.com/DingXiaoH/RepMLP，有精力的朋友可以去跑一跑，看一看代码。

我们先回顾一下，先前的基于卷积网络的工作。之所以卷积网络能够有效，一定程度上是其对空间上的信息进行捕捉，通过多次的卷积提取到了空间上的特征，并且基本上覆盖了整张图片。假如我们将图片“拍平”然后用MLP进行训练，则失去了空间中的特征信息。

这篇文章的贡献在于：

利用了全连接（FC）的全局能力(global capacity) 以及位置感知 (positional perception)，将其应用到了图像识别上
提出了一种简单的、无关平台的 (platform-agnostic)、可差分的算法，来将卷积和BN合并成FC
充分的实验分析，验证了RepMLP的可行性

整体框架

整个RepMLP分为两个阶段：

训练阶段
测试阶段

针对这两个阶段，如下图所示：

framework

看上去有些复杂，我们先单独看看训练阶段的部分。

首先是全局感知（global perceptron）

global

主要分为两条路径：

路径1: 平均池化 BN FC1 ReLU FC2
路径2: 分块

我们记输入张量的形状为

路径1

对于路径1，首先平均池化将输入转换成

, 相当于缩放，然后绿色的部分表示将张量“拍平”

也就是变成

形状的张量，经过两层FC层之后，维度仍然保持，因为整个FC就相当于左乘一个方阵。

最终对

形状的输出进行reshape，得到一个形状是

的输出

路径2

对于路径2，直接将输入

转换成

个

的小块，其形状也就是

最后将路径1和路径2的结果做加法，由于维度对不上，不过在PyTorch中，会进行自动的copy操作，也就是所有的

大小的块的每一个像素，都会加上一个值。

这一个部分的输出形状为

然后进入局部感知和分块感知的部分，如下图所示：

local

对于分块感知（partition perceptron）

首先，将4维的张量拍成2维，即

变成

然后FC3是一个参照 分组卷积（groupwise conv） 的操作，其中

是组的数目

原本FC3应该是

的一个矩阵，但是为了降低参数量，使用了分组的FC（groupwise FC）

分组卷积本质上就是对通道进行分组，我举个例子：假设输入是一个

的张量，如果我们希望输出是

通常我们的卷积核形状为

，其中

是卷积核的大小我们对通道

进行分组，每

个通道为一组，那么就有

个组对于单独每一个组，进行卷积操作，我们的卷积核形状就会缩小成

在这里，分组FC也就是对通道数

进行分组然后每一个组过FC，最终得到

的张量

再经过BN层，张量形状不变。

而对于局部感知（local perceptron）

local perceptron

类似FPN的思想，进行了不同尺度的分组卷积，得到了4个形状为

的张量

把局部感知的结果和分块感知的结果相加，就得到了

的输出

到这里你可能会问，这不是还存在着卷积吗？

这只是训练阶段，在推理阶段，便会把卷积都扔掉，如下图所示：

inference

至此，我们用MLP替代掉了一个卷积的操作

实验分析

首先是一系列消融实验（Ablation Study），在CIFAR-10数据集上进行测试

cifar-10-ablation

A条件是在推断的时候保留BN层和conv层，结果没有变化

D，E条件分别是用一个9x9的卷积层替代掉FC3和整个RepMLP

Wide ConvNet是将本来的网络结构的通道数翻倍

结果说明局部感知和全局感知的重要性，同时推断的时候去除卷积部分没有影响，实现了MLP的替换

然后作者替换掉了ResNet50的一些block，进行了测试

c4-only

只替换掉倒数第二个残差块，参数量多了一些，但是正确率有小幅度的增加

倘若我们完全替换掉更多的卷积部分

replace

参数量会增加，正确率也会有小幅度的增加

block copy global image local

0 人点赞