同步Batch Normalization(syncbn)作用

2022-09-03 19:10:50 浏览数 (1)

1、BN训练与测试过程

BN层有4个参数,gamma、beta、moving mean、moving variance。其中gamma、beta为学习参数,moving mean、moving variance为数据集统计均值与方差,不可学习。在训练过程中:

在这里插入图片描述 y为BN层输出,此时归一化的均值与方差为当前mini-batch的均值与方差。同时也记录moving mean、moving variance的值,每训练一个batch,moving mean、moving variance就更新一次。注意此参数更新过程不是学习过程,而是纯粹的计算train-set在当前BN数据分布过程,因此不能将算作是学习过程。decay为一个接近于1的值,比如0.9997。在测试过程中:

2、prototxt示例

代码语言:javascript复制
layer {
   name: "conv3_3_3x3/bn"
   type: "SyncBN"
   bottom: "conv3_3_3x3"
   top: "conv3_3_3x3/bn"
   param {
     lr_mult: 1
     decay_mult: 0
   }
   param {
     lr_mult: 1
     decay_mult: 0
   }
   param {
     lr_mult: 0
     decay_mult: 0
   }
   param {
     lr_mult: 0
     decay_mult: 0
   }
   bn_param {
     slope_filler {
       type: "constant"
       value: 1
     }
     bias_filler {
       type: "constant"
       value: 0
     }
     frozen: false
     momentum: 0.9997
   }
 }

momentum为decay,slope_filler与bias_filler分别为gamma与beta的初始化参数。frozen为是否禁止更新参数标识,该示例为train.prototxt,因此为false,在测试过程中应改为true。

3、为什么要同步BN

目前网络的训练多为多卡训练,大型网络结构以及复杂任务会使得每张卡负责的batch-size小于等于1,若不进行同步BN,moving mean、moving variance参数会产生较大影响,造成BN层失效。具体参考《MegDet:A Large Mini-Batch Object Detector》 4、融合BN操作

为简化inference过程,以及商业代码保密,通常进行BN融合操作。即把BN参数融合至conv层

0 人点赞