查看本案例完整的数据、代码和报告请登录数据酷客(cookdata.cn)案例板块。
谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli
英文原报告“深度学习统计力学”。
1 随机神经网络中的动态相变
1.1 输入的前向传播
有趣的是,这种输入几何形状的信息传播的发散深度尺度与训练极深的临界网络的能力相吻合[31](如图3所示)。此外,在远离临界点时,可靠的前向信息传播的深度尺度决定了神经网络可以训练的深度。这种临界相变、发散的深度尺度和临界状态下的深度可训练性不仅在全连接网络中观察到[31],而且还在卷积网络[63],自编码器[64]和循环网络[65,66]中观察到。
图3 信号传播预测可训练性。每个子图显示当模型的超参数在二维网格上变化时,预测准确性从完美(红色)到随机猜测(黑色)的变化。白线显示在每种情况下决定可训练性的数量的平均场预测。总的来说,我们在广泛的体系结构中看到了极好的一致性。(a) 全连接网络与信号传播的深度尺度的比较。(b) 残差网络在常数梯度范数时的比较曲线。(c)具有深度尺度的卷积网络用于信号传播。(d-e)包含信号传播时间尺度的循环神经网络。(f)具有用于梯度爆炸的深度尺度的批量标准化的全连接网络。更多细节见文献31。
1.2 误差信号的后向传播
这里每一层神经元数量都一样,即对所有 l 都有 Nl = N0 。因此 X 是一层到下一层的雅克比矩阵 DW 的奇异值的平方和的均值。这个局部算子反映随机选择的反向传播误差 e} 的平均乘性增长(X < 1)或收缩(X > 1)。这种增长或收缩随着网络深度 D 指数级传播。
文献31表明,在全连接网络中,误差的后向传播和输入的前向传播密切相关。因此当公式(8)中 c*=1 的前向传播的不动点是稳定的(即图1a中的有序域)时,邻近输入点将会很接近因为它们前向和向后传播的误差指数消失。这种性质可以推广到其他的网络[62],包括卷积网络[63]和循环网络[65,66]。可见在临界点进行初始化,例如有序和混沌的边界区域,通常能够加速训练以及获得更好的性能[31,63-66,68-71]。
除了为初始化带来新的见解,对信号传播和梯度后向传播的平均场分析为深度学习的一些其他现象带来新的解释。这些现象包括对抗样本的本质[72],Fisher 信息的特征值[73],权重量化的效果[74],以及基于图神经网络的图分割[75]等。
2 动力等距与自由概率理论
上一小节我们已经显示公式(9)中的雅克比矩阵 J 的奇异值的平方和的均值随着 XD 而增长,其中 X 见公式(10)。 因此 X=1 的临界初始值避免了随机选择的误差信号 e 的指数级爆炸或增长。然而这并不意味着在所有可能的误差信号 e 中最坏情况下的最大增长和最小收缩不会随着网络深度而增长或收缩。最大的增长因子和最小的收缩因子分别由 J 的最大和最小奇异值决定。因此可以猜想,除了在初始化时保证 J 的奇异值的平方和均值等于1,可以进一步保证 J 的所有奇异值都分布在1附近,来获得更快更好的网络训练。这种初始化模式由文献76首次提出,又叫做动力等距性质。这种初始化方法确保了误差后向传播的动力等距,即每一个误差向量的长度近似不变,所有误差向量对的夹角也保持不变。
在线性网络网络中可以简单地选择正交的权重矩阵(而非高斯权重)来满足动力等距。并且从理论上和经验上都表明,正交初始化时,训练时间(用训练步数来度量)与网络深度无关[76]。而在高斯初始化中,即使 X=1 ,训练时间也随着深度线性增长。的确,即使 X=1 ,高斯随机矩阵的乘积的最大奇异值随着网络深度线性增长,而正交矩阵的乘积所有的奇异值都等于1,所以可以达到完美的动力等距。
文献77将这一结果推广到非线性网络,文献78则利用自由概率理论[79,80]中的强大工具将 J 背后的随机矩阵乘积的全谱求解为权重分布和非线性函数 ϕ 形状的一个函数。这个分析理论与在非线性深层网络中对 J 的经验谱分布的数值测量结果相匹配(见图4a)。
图 4a 不同深度下,宽度为 1000 的 ERF 网络的端到端雅可比矩阵的经验奇异值密度(实线)和理论奇异值密度(虚线)。
有趣的是,这一工作还揭示我们甚至可以在非线性网络中使用正交权重和 Sigmoid非线性函数(或者更一般的原点附近局部线性而其他地方的导数有界的非线性函数)来达到动力等距。而深度学习中最流行的非线性函数之一 ReLU 则不满足上述条件。这一工作进一步显示,如果权重是高斯分布的,则没有非线性函数能够达到动力等距[78]。这些针对 J 全谱的理论结果和实践训练结果都显示,正交初始化的 Sigmoid 网络确实要优于整流线性网络[77](见图4b)。
图 4b 深度为 200,宽度为 400 的网络在 CIFAR-10 测试数据集上的正确性变化。不同的曲线表示不同的非线性函数和权重初始化,动力等距程度由蓝变红变黑逐渐降低。
动力等距的条件在很多其他架构中也被分析,包括残差网络[81],循环神经网络(RNN)[65],LSTM/GRU[66],以及卷积神经网络(CNN)[63]。在卷积神经网络中,动力等距我们能够训练包括10000层的极深的网络[见图4c]。
图4c 不同深度下以动力等距初始化的 CNN 在 CIFAR-10 上的训练准确性和测试准确性,分别如点线和实线所示。训练深度可达 10000 层。
因此,将随机矩阵理论应用到深层网络可以得到更好的训练模式。实际上,在深度学习的很多场景,随机矩阵理论都被证明是一个非常强大的工具,包括神经网络损失曲面的几何形状[83],激活矩阵和 Fisher 信息矩阵的谱计算[84],学习动力学的研究[85-87],以及一些其他应用[88-90]。
3 超越平均场:有限宽度和路径积分
上述的理论结果基于两个关键的简化假设:无限宽度极限,以及权重和偏置的独立同分布假设。在这种平均场极限下,满足自平均性质,通过对网络集合进行平均,可以精确地分析计算单个网络的前向传播输入的几何形状和雅可比谱。
为了研究有限宽度或训练网络[91,92]的功能作用,我们必须超越平均场。尽管这类深度学习的研究还处于初级阶段,我们可以在研究自旋玻璃[93]中有限尺寸效应的理论工作基础上,以及分析自旋玻璃[95中涨落的路径积分方法[94],以及随机[94]和确定性[96–99]神经网络的基础上进行研究[参见文献100和101]。这种路径积分方法既可以分析计算包含相关性和响应函数的方程[102],也可以利用费曼图和循环展开来系统地处理波动[100,101,103-105]。
最近,这种路径积分方法被用来分析训练好的前馈网络[91]。然而这种方法对于洞察深度学习的不同方面还有更多的潜力。事实上,这种方法已经在解释有限尺寸校正[99],相关性[106],非线性[107]的影响,以及循环网络应用等方面获得了成功,它也可能在前馈网络的平均场之外产生类似的见解[91,108]。